大数据学习
文章平均质量分 51
madman1990
嘿嘿嘿.....
哈哈哈.....
懂不懂.....
今天我调皮了......
展开
-
Hadoop本地库native警告处理
下载native安装包(这里是2.5.0的版本)替换/opt/moduels/hadoop-2.5.0/lib目录下的native文件夹,原来的文件夹更换一个名字或者删除都可以链接:https://pan.baidu.com/s/1T7dVVOZ_hHd8IPqmozMh5g 密码:a60o更换前[hadoop@hadoop hadoop-2.5.0]$ bin/hdfs dfs -ls /18...原创 2018-03-06 21:23:15 · 594 阅读 · 0 评论 -
Hive做一个PV,UV统计的案例记录
hive学习记录 使用hive统计一个网站的pv,和uv,只有源文件,从导入文件到最后导出统计结果,统计一个网站某天某时的pv uv访问值。步骤在hive中新建数据源表。导入源文件到hive表中。对hive原表做一个数据清洗,筛选有用的字段,新建清洗表。新建分区表,从数据清洗表中把输入导入到分区表。对分区表的数据进行分组统计。使用sqoop导出数据到mysql中。...原创 2018-03-31 16:00:42 · 6774 阅读 · 5 评论 -
Hive的HiverServer2和FetchTask以及虚拟列
Hive的HiveServer2服务端和Beeline客户端参考链接HiveServer服务端启动命令[hadoop@hadoop apache-hive-0.13.1-bin]$ bin/hiveserver2 HiveServer2的默认端口是10000 Beeline客户端启动命令[hadoop@hadoop apache-hive-0.13.1-bin]$...原创 2018-03-27 21:52:42 · 257 阅读 · 0 评论 -
Hive的java客户端连接Hive数据库
记录一下用java客户端连接Hive数据库,连接数据库的时候必须要启动HiveServer2,要不然连接不上…,测试的时候下载一下<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <ve...原创 2018-03-27 22:05:56 · 6721 阅读 · 0 评论 -
如何下载CDH版本的Hadoop生态工具
最近下载CDH版本的Hadoop工具,点击下载链接发现都跳转到Apache官网上去了,可以用这种方法试试下载.首先找到下载的地址,然后再后面加上.tar.gz就可以下载了 CDH的下载工具都在http://archive.cloudera.com/cdh5/上,现在是cdh5的版本。 下载案例 比如http://archive.cloudera.com/cdh5/cdh/5/ha...原创 2018-04-20 10:17:40 · 6259 阅读 · 7 评论 -
Hive创建表指定正则表达式
hive创建表的时候我们一般使用的分隔符是’\t’,但是有时候我们提供的源数据本身并没有按照严格的格式来,因此我们可以创建表的时候指定正则表达式,加载数据的时候指定数据格式。参考链接hive的Apache Weblog Data 案例:加载数据用的到文件链接:https://pan.baidu.com/s/1bp-1yRKsYZrZplX2KIsv0A 密码:rm0q...原创 2018-03-31 22:25:28 · 1588 阅读 · 0 评论 -
Hive写一个时间转换器的自定义函数(UDF)和创建hive自定义函数的两种方式
在前面一篇文章的日志表中,时间的格式的是这样的"31/Aug/2015:00:04:37 +0800";这样并不友好,为了好看点,我们自定义一个时间格式化的udf函数,hive应该也提供时间转换的函数。自定义函数代码 自定义函数还是继承UDF类package com.madman.hive.function;import java.text.SimpleDateF...原创 2018-03-31 23:20:02 · 635 阅读 · 0 评论 -
Hive的MapReduce优化
纯属记录笔记..,没有实际操作过。MR优化map和reduce的个数 一个分片就是一个块,一个块对应一个maptaskHadoop源码中有一个计算公式 min(max_split_size,max(min_split_size,block_size))min_split_size默认值0(最小分片大小)max取的时候取的是block_size,block_size默认是...原创 2018-04-02 21:37:28 · 427 阅读 · 0 评论 -
hive的内置函数unix_timestamp 、case when 、cast记录
记录一下hive的几个小的内内置函数。新建个默认表dualoracle数据库中有个默认表是dual,但是hive里面没有,为了方便测试我们需要的一些函数,创建一个dual方便测试。参考链接:hive中构建dual虚表 准备个需要加载的数据echo 'X' > dual.txt创建dual表create table dual(temp string);加...原创 2018-04-01 11:20:36 · 1949 阅读 · 0 评论 -
hvie使用python做数据处理 官网的demo
参考官方提供的一个使用python做数据处理案例。官方案例地址参考连接创建新表CREATE TABLE u_data ( userid INT, movieid INT, rating INT, unixtime STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'STORED AS TEXTFILE...原创 2018-04-01 00:09:40 · 251 阅读 · 0 评论 -
flume安装在hadoop记录
flume介绍1、功能:数据采集 1.1、collecting收集 1.2、aggregating聚合 1.3、moving移动2、数据源->目标地3、流式:就像水流一样,动态的,有序 3.1、实时和离线都可以使用4、flume如何去解决数据源在windows的问题 4.1、Linux:NFS(NetWork File Sys...原创 2018-04-03 21:17:10 · 759 阅读 · 0 评论 -
flume使用taildir收集文件和文件夹
使用taildir实现同时收集文件夹和文件的功能tail source官方文档Flume在1.7之前没有提供tail dir source这样的命令,需要自己编译tail dir source的jar包,编译好之后上传到flume的lib目录下,jar包下载地址 链接:https://pan.baidu.com/s/1_A5DvKnJSlBoF1rgf9HjsA 密码:jhk...原创 2018-04-11 23:39:08 · 4058 阅读 · 3 评论 -
flume收集日志的简单配置
flume收集日志的形式 flume的三大组件source和channel,sink的分类和属性文档 flume三大组件文档通过使用avro将多台机器的日志写入到一台机器,使用场景集群中的日志集中写到某一台,然后由某一台集中输入,减少每台机器的IO压力 角色: collect收集者 client 发送者 avro-collect.properties# in this case...原创 2018-04-03 23:08:40 · 573 阅读 · 0 评论 -
Hbase安装记录
Hbase作为Hadoop生态圈的一个组件,也是需要依赖Hadoop的,因此在安装Hbase之前需要先安装好Hadoop环境。Hbase主要用于实时&&离线数据处理,处理数据快,存储量大,按列存储数据库,能够轻松处理亿级别是数据,Hbase的底层依赖于Hbase的HDFS。Hbase作为noSql类型的数据库,没有关系型数据库的主键概念,变成了行键概念。Hb...原创 2018-04-21 14:07:13 · 248 阅读 · 0 评论 -
sqoop工具安装和基本命令使用记录
sqoop底层就是MR,利用MapReduce加快数据传输速度,批处理方式进行数据传输,sqoop不管是导入还是导出都没有reduce操作,只有map操作。安装sqoop1、下载上传sqoop-1.4.5-cdh5.3.6到hadoop环境上面,需要先搭建好hadoop环境。 2、修改配置文件/opt/cdhmoduels/sqoop-1.4.5-cdh5.3.6/conf目录下...原创 2018-03-29 23:23:41 · 259 阅读 · 0 评论 -
Hive环境搭建记录
Hive安装记录 官方参考地址 Hive是基于Hadoop的,所有使用Hive的必须先安装好Haoop步骤一先新建几个目录,并且设置权限,新建两个文件夹,并设置组可写的权限, 默认的仓库存储地址是/user/hive/warehouse,可通过修改属性文件更改位置,/tmp主要是存放Hive的一些临时文件,也可通过属性文件进行修改,后面两条命令主要是更改这两个目录的权限,...原创 2018-03-13 23:13:26 · 186 阅读 · 0 评论 -
记录linux的SSH免密登录
当我们从一台机器通过ssh登录到另外一台机器的时候,总是会要求输入登录密码,为了不输入密码登录,ssh提供了免密码登录,也就是所谓的公钥登录,公钥登录就是用户把自己的公钥发送到远程主机上,当远程主机需要登录的时候会做一个验签名的操作,如果签名通过那么就不需要密码登录啦。具体操作如下。1、生成rsa的秘钥对进入当前用户的根目录,执行ssh-keygen -t rsa,输入四个回车就行,不需要写啥....原创 2018-03-06 21:57:12 · 229 阅读 · 0 评论 -
hadoop的常用命令
hadoop如果是安全模式,则hdfs只能查看和下载操作,不能做其他操作[hadoop@hadoop hadoop-2.5.0]$ bin/hdfs dfsadmin -safemode get --查看hadoop是否是安全状态[hadoop@hadoop hadoop-2.5.0]$ bin/hdfs dfsadmin -safemode enter --设置安全模式[hadoop@had...原创 2018-03-06 22:19:20 · 174 阅读 · 2 评论 -
vm克隆虚拟机修改点
1、克隆虚拟机选中需要克隆的机器,然后选中VM上面的虚拟机-->管理--克隆,下一步选中完整克隆就行啦。2、需要修改的点第一步修改/etc/udev/rules.d/70-persistent-net.rules文件sudo修改/etc/udev/rules.d/70-persistent-net.rules文件,注释掉第一行,保留最后一行代码,并将NAME="eth1"改成NAME="et...原创 2018-03-06 23:01:15 · 448 阅读 · 0 评论 -
Hive常用命令记录
Hive的常用命令 HIve DDL语法参考 使用bin/hive -help查看帮助命令[hadoop@hadoop apache-hive-0.13.1-bin]$ bin/hive -helpusage: hive -d,--define <key=value> Variable subsitution to apply to hive ...原创 2018-03-14 23:03:01 · 1241 阅读 · 0 评论 -
Hive的分析函数
记录下Hive的常用函数 参考链接: Hive的分析函数参考地址 Hive的常用函数和平常我们使用的关系型数据库基本都差不多,这里只是记录一下,方便后面回顾。准备测试数据..[hadoop@hadoop apache-hive-0.13.1-bin]$ cat emp.txt 7369 SMITH CLERK 7902 1980-12-17 800....原创 2018-03-14 23:19:38 · 349 阅读 · 0 评论 -
Hadoop完全分布式环境搭建
搭建完全分布式环境是在会先搭建单节点的伪分布式环境上面进行的,先拷贝一份伪分布式的hadoop安装程序,jdk安装之类的就先不讲了,然后再伪分布式环境上对配置文件进行修改,首先看下配置文件吧core-size.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="confi...原创 2018-03-08 23:03:17 · 284 阅读 · 0 评论 -
linux服务器修改时间为北京时间
删除本地的时间文件,加入上海时区rm -rf /etc/localtimeln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime系统第一次使用这两个命令之后系统时间变成北京时间了,但是我后面用date -s "2018-03-09 22:25:00" 改了时间之后,又想同步一下改成北京时间,于是又执行上面两行的命令,最后发现时间没有变,时间还是...原创 2018-03-09 21:38:54 · 19033 阅读 · 0 评论 -
zookeeper安装记录下....
1、先安装个telnet和nc吧,因此测试zk的nc命令会用到这些命令哦...[hadoop@learn bin]$ sudo yum list ncLoaded plugins: fastestmirror, refresh-packagekit, securityLoading mirror speeds from cached hostfile * base: mirrors.sohu...原创 2018-03-09 23:04:28 · 189 阅读 · 0 评论 -
Hadoop搭建HA记录
搭建hadoop的HA是在HA的完全分布式环境下进行的,为了避免搭建过程出现问题,先备份好完全分布式环境>备份etc/hadoop目录>备份data/tmp目录,并删除tmp里面的内容>新建data/dfs/jn文件夹,用于存放journalnode节点的存放目录搭建HA主要是在完全分布式的环境下修改hdfs-site.xml和core-site.xml文件hdfs-site.x...原创 2018-03-10 23:34:52 · 127 阅读 · 0 评论 -
hadoop伪分布式环境安装
参考官方网址:http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/SingleCluster.html1、linux中安装lrzsz[hadoop@hadoop ~]$ yum install lrzsz注意需要使用root用户,普通用户需要sudo进行授权2、为了方便普通用户(hadoop)用户root权限...原创 2018-03-05 23:17:08 · 182 阅读 · 0 评论 -
Hive的数据导入和导出方式
HIve导入数据和导出数据的方式load方式,本地 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下 应用场景:大部分的使用,文件几乎都是默认现在本地的 load方式,HDFS load data inpath 'hdfs_path' into table tb_name; 将文...原创 2018-03-19 22:01:22 · 1130 阅读 · 2 评论 -
Hive的几种排序方式
记录Hive的几种常见的排序方式order by 普通排序,通过order对字段进行降序或者升序 select * from emp order by sal; sort by 对每一个Reduce的结果进行排序,为了看出效果,我们多设置几个Reduce,查看每个Reduce的结果是否是排序的。 set mapreduce.job.reduces=3; insert ove...原创 2018-03-19 22:44:12 · 11706 阅读 · 0 评论 -
Hive自定义函数(字母大小写转换)
自定义Hive的函数,首先需要继承UDF类,然后定义方法名字为evaluate的方法,该方法不能设置void,如果需要返回为空,可以返回为null.一个简单的大小写转换案例 特别注意看注释package com.madman.hive.function;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.h...原创 2018-03-19 23:23:14 · 8689 阅读 · 0 评论 -
hadoop搜集的一些资料网址
1、hadoop配置eclipse环境http://mangocool.com/detail_1_1434528570810.html2、" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Win错误的解决方法(百度很多,基本差不多)http://blog.csdn.net/congcong6...原创 2018-02-24 13:36:06 · 118 阅读 · 0 评论