大数据
云游遍天下
心有山海,静而无边。
展开
-
hadoop入门5:hadoop创建单词索引demo
需求:给出几个文件,分别把每个单词总数、在哪个文件单词总数计算出来test1文件:zsy testzsy tomzsy testtest2文件:tom testzsy tomzsy cattest3文件:cat testcat tomtest cat第一步:把每个文件单词和文件名组合为key,value是单词个数package com.zsy....原创 2018-10-05 09:58:46 · 600 阅读 · 0 评论 -
hive学习6:hive级联求和
说明: 级联求和,不仅hive会使用,其实mysql或者Oracle也会用到的,我这边先用mysql实现下,具体需求如下:username month times A 2018-02 5 A 2018-03 10 A 2018-04 10 B 2018-02 5 B 2018-03 1...原创 2018-10-23 22:55:53 · 4239 阅读 · 0 评论 -
hive学习4:hive自定义函数
以创建转换字符串大小写为例:1、搭建java项目,把hive安装包下libjar包添加进去。2、创建转换字符串大小类,必须继承UDF类package com.zsy.hive.udf;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;/** * 转换...原创 2018-10-21 20:07:43 · 1733 阅读 · 0 评论 -
hive学习3:hive常用HQL语句
show databases;show tables;desc test;#删除表drop table t_buck;#请表数据truncate table t_buck;-------------分桶表示例:#创建分桶表drop table stu_buck;create table stu_buck(Sno int,Sname string,Sex string,Sa...原创 2018-10-20 15:48:01 · 872 阅读 · 0 评论 -
hive学习5:自定义函数之json对象转换hive数据存储
0元数据,上传到服务器上:{"movie":"2717","rate":"3","timeStamp":"978298196","uid":"2"}{"movie":"2571","rate":"4","timeStamp":"978原创 2018-10-22 22:26:41 · 784 阅读 · 1 评论 -
hadoop入门09:mapreduce开发总结
mapreduce在编程的时候,基本上一个固化的模式,没有太多可灵活改变的地方,除了以下几处:1、输入数据接口:InputFormat ---> FileInputFormat(文件类型数据读取的通用抽象类) DBInputFormat (数据库数据读取的通用抽象类) 默认使用的实现类是: TextInputFormat job.setInputFormat...原创 2018-10-10 21:17:55 · 206 阅读 · 0 评论 -
zk集群搭建
准备:jdk自行安装,我安装的是"1.7.0_80"下载zk,zk下载地址 根据jdk下载对应的zk,我下载的是zookeeper-3.4.5下载好后上传到服务器上。我的服务器是三台,hadoop01 hadoop02 hadoop03;我先在hadoop01下装zk,装好后,在拷贝到其他服务上安装:1、解压tar -zxvf zookeeper-3.4.5.t...原创 2018-10-09 21:56:35 · 10758 阅读 · 1 评论 -
hadoop入门4:Map实现Join逻辑,无需要使用reducer
在hadoop入门3里,用订单和产品进行关联,用map+reducer实现join逻辑,但是这种使用,小数据下还好,但是一旦出现海量数据,会出现reduce处理任务严重不平衡,有的reduce很轻松,有的reduce很繁忙,也就是数据倾斜;因此去掉reduce这一步,直接在map完成join,需要在map完成join过程,势必需要在每个map task里获取产品信息(产品信息是小部分,可以在放...原创 2018-09-29 22:05:09 · 459 阅读 · 0 评论 -
hive学习1:hive1.2.1版本安装
Hive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-1.2.1.tar.gz -C /usr/local mv hive-1.2.1 hive3.安装mysql数据库(切换到root用户)(装在哪里没有限制,只有能联通hadoop集群的节点) mysql安装仅供参考,不同版本mysql有各自的安装流程 rpm -qa | grep m...原创 2018-10-14 15:04:08 · 1790 阅读 · 0 评论 -
hadoop入门搭建环境
下面是比较粗略的搭建过程,详细,请下载hadoop集群搭建文档1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop01 ### 1.2修改IP 两种方式: 第一种:通过Linux图形界面进行修改(强烈推荐)...原创 2018-10-14 13:26:23 · 332 阅读 · 0 评论 -
hive学习2:Hive drop table卡住的问题,mysql字符集修改了latin,但是还是不行解决方案
刚开始接触hive,在删除表时卡住了,根据网上播客修改mysql字符集为latin,测试后还是不行,给下修改mysql字符串地址:修改mysql字符串地址 我这边修改后是还是无法删除,搞了大半个小时还是不行,最后,只能报着试试的心态升级mysql驱动jar试试,成功了,我之前的旧的jar版本是mysql-connector-java-5.1.6.jar 替换为mysql-con...原创 2018-10-13 23:28:15 · 1119 阅读 · 1 评论 -
hadoop入门8:自定义OutputFormat,根据需求数据输出不同的路径
在有些情况下,我们需要数据分开输出,即指定输出路径,这时就需要重写outputformat。测试数据(部分):1374609798.19 1374609798.20 1374609798.20 1374609798.51 110 5 8615103869897 460029934830160 3559380454939260 2 460 0 14443 15406 10.184.49...原创 2018-10-06 23:19:36 · 1200 阅读 · 0 评论 -
hadoop入门7:自定义GroupingComparator进行分组
摘要:GroupingComparator是在reduce阶段分组来使用的,由于reduce阶段,如果key相同的一组,只取第一个key作为key,迭代所有的values。 如果reduce的key是自定义的bean,我们只需要bean里面的某个属性相同就认为这样的key是相同的,这是我们就需要之定义GroupCoparator来“欺骗”reduce了。 我们需要理清楚的还有map阶段你的几个...原创 2018-10-06 12:45:38 · 1028 阅读 · 1 评论 -
hadoop入门6:hadoop查询两两之间有共同好友,及他俩的共同好友都是谁
A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J该数据可以看作好友,例如:A有B,C,D,F,E,O好友;B有A,C,E,K好友,以此类推;求两两之间有共同好...原创 2018-10-05 12:44:16 · 1732 阅读 · 1 评论 -
flume学习1:初次接触flume
最近准备学习下flume,到apache官网下载了一个版本,例子官网也有:我用翻译器翻译了下中文有助于理解,文档地址按照官网来,就能正常安装单机版的flume了 ...原创 2018-10-29 21:22:15 · 291 阅读 · 0 评论