![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据Hadoop
文章平均质量分 58
张小沫22
这个作者很懒,什么都没留下…
展开
-
MapReduce计算框架(一)
MapReduce原理可以用一个成语概括“分而治之”,Map端主要进行数据转换、清洗,Reduce端进行具体的计算。官方描述的过程如下所示。所有的数据都是存储在hdfs上,是一个个的block块。Map端输入block数据块,经过...原创 2018-05-17 19:49:28 · 968 阅读 · 0 评论 -
MapReduce实现订单商品的统计
mapreduce功能强大,可以处理大量离线数据。业务场景是要统计每个订单中数量情况,并将对应的商品id抽取出来。数据格式为.csv文件,类型如下所示:order_id,product_id,add_to_cart_order,reordered1,49302,1,11,11109,2,11,10246,3,01,49683,4,01,43633,5,11,13176,6,01,47...原创 2018-05-17 22:50:13 · 4600 阅读 · 0 评论 -
Hive1.2.2详细安装教程
Hive是Hadoop组态中的数据仓库,本质是将sql语句转换为MapReduce任务,所以Hive只是一个解析引擎,它的数据存储在hdfs上,元数据信息依托mysql数据库。在这里有一个小问题,为什么需要mysql关系数据库,因为hdfs存储的只是数据信息,而建表的时候是需要列名来查询的,因此要用mysql来建立表信息,当然也可以用其他的关系型数据库。在这里依托mysql数据库搭建Hive组件。...原创 2018-05-20 22:30:08 · 4150 阅读 · 0 评论 -
Hadoop2.6.x安装详细教程
Hadoop是基于java实现的,因此必须安装java环境。以下为实现hadoop2.0安装教程。1.在主节点的 /usr/local/src/下进行对java解压tar xvzf jdk-7u67-linux-x64.tar.gz配置java环境变量#Master、Slave1、Slave2vim ~/.bashrcexport JAVA_HOME=/usr/local/src/jdk1.7.0...原创 2018-05-16 16:52:54 · 591 阅读 · 0 评论 -
MapReduce实现wordcount
统计数据集中每个单词出现的总次数,为避免大小写问题出现的统计次数错误,将单词都做成小写,并用正则除去出现的标点。map阶段import sysimport rep = re.compile(u'\w+')#读取数据流信息for line in sys.stdin: word_list = line.strip().split() for word in word_list...原创 2018-05-16 19:07:42 · 179 阅读 · 0 评论