hadoop
⑨笙清栀
海到无边天作岸
展开
-
MapReduce辅助排序
一、数据部分如下:1001 Tmall_01 9981001 Tmall_06 88.81001 Tmall_03 522.81002 Tmall_03 522.81002 Tmall_04 132.41002 Tmall_05 372.41003 Tmall_01 9981003 Tmall_02 8.51003 Tmall_04 132.4需求:订单id正序,成交金额倒序...原创 2019-02-21 13:58:09 · 319 阅读 · 0 评论 -
Mapreduce分区加排序
流量汇总分区加排序部分待排数据字段如下:13480253104 120 132013502468823 735 1134913510439658 1116 95413560436326 1136 9413560436666 1136 9413560439658 918 493813602846565 198 91013660577991 660 690代码FlowBean...原创 2019-02-20 23:19:27 · 257 阅读 · 0 评论 -
MR全局排序
流量汇总全局倒排序部分待排数据字段如下:13480253104 120 132013502468823 735 1134913510439658 1116 95413560436326 1136 9413560436666 1136 9413560439658 918 493813602846565 198 91013660577991 660 690上代码FlowBean...原创 2019-02-20 22:51:01 · 614 阅读 · 0 评论 -
MR流量汇总案例
待汇总数据部分如下:3631279840312 13660577991 5C-0E-8B-92-5C-20:CMCC-EASY 120.197.40.4 s19.cnzz.com 站点统计 24 9 660 690 2003631279730382 15013685858 5C-0E-8B-C7-F7-90:CMCC 120.197.40.4 rank.ie.sogou.com 搜索引擎 28...原创 2019-02-20 22:39:32 · 335 阅读 · 0 评论 -
MR流量汇总自定义分区
上代码FlowBean/** * 封装类 数据的传输 * @author chengguo * @version 1.0 */public class FlowBean implements Writable{ //定义属性 private long upFlow; private long dfFlow; private long flowSum; pub...原创 2019-02-20 21:53:07 · 201 阅读 · 0 评论 -
DATANODE的工作机制
转自 https://blog.csdn.net/qq_26442553/article/details/78529314DATANODE的工作机制问题场景:1、集群容量不够,怎么扩容?2、如果有一些datanode宕机,该怎么办?3、datanode明明已启动,但是集群中的可用datanode列表中就是没有,怎么办?1 概述1、Datanode工作职责:  ...转载 2019-02-20 17:57:06 · 262 阅读 · 0 评论 -
深入浅出之namenode工作原理剖析
转自 https://blog.csdn.net/qq_26442553/article/details/78529256 问题场景:1、集群启动后,可以查看文件,但是上传文件时报错,打开web页面可看到namenode正处于safemode状态,怎么处理?2、Namenode服务器的磁盘故障导致namenode宕机,如何挽救集群及数据?3、Namenode是否可...转载 2019-02-20 17:36:31 · 357 阅读 · 0 评论 -
hadoop学习总结(一)
如何安装配置apache的一个开源hadoop集群使用root账户登录修改IP修改host主机名配置SSH免密码登录关闭防火墙安装JDK并配置jdk环境变量解压hadoop安装包配置hadoop的核心文件hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml ,yarn-site....原创 2019-02-20 16:53:48 · 3170 阅读 · 3 评论 -
CombineTextInputFormat切片机制优化大量小文件
CombineTextInputFormat切片机制优化大量小文件默认情况下,TextInputformat对任务的切片机制是按文件规划切片,不管文件多小,都会有一个单独的切片,都会交给一个maptask,如果存在大量小文件,就会产生非常多的maptask,这样处理效率机会低下。如何优化:最好的办法,预处理,将小文件先合并成大文件,然后上传到HDFS后分析补救措施:如果大量小文...原创 2019-02-20 14:32:05 · 170 阅读 · 0 评论 -
MyFirstWordCount
一、mapreduce编程规范用户编写mr程序主要分为三个部分:Mapper,Reducer,Driver1.Mapper阶段(1)用户自定义mapper类 要继承父类Mapper(2)Mapper的输入数据的kv对形式(kv类型可以自定义)(3)Mapper的map方法的重写(加入业务逻辑)(4)Mapper的数据输出kv对的形式(kv类型可以自定义)(5)map()方法(map...原创 2019-02-20 11:12:49 · 160 阅读 · 0 评论 -
hadoop生态圈的理解
hadoop部分:hadoop生态圈的理解(HDFS,MapReduce,HBASE,zookeeper,hive,sqoop,flume,kafka,yarn,spark) 一、简介       &am转载 2019-02-20 09:25:57 · 6668 阅读 · 0 评论 -
HDFS基本命令行操作与简单API使用
HDFS基本命令行操作与简单API使用1.网页形式->测试用http://192.168.50.183:50070/2.命令行形式->测试用3.企业级API1)查看帮助hdfs dfs -help2)查看当前目录信息hdfs dfs -ls /3)上传文件hdfs dfs -put /本地路径 /hdfs路径4)剪切文件hdfs dfs -moveFromLo...原创 2019-02-19 23:20:09 · 162 阅读 · 0 评论 -
MapReduceshuffle过程详解
一、shuffle概念 shuffle,洗牌的意思。在MapReduce中,shuffle将map端的无规则输出按指定的规则处理为具有一定规则的数据后,reduce端再接收处理。 shuffle的工作阶段在map和reduce两端,即Map Shuffle和Reduce shuffle。 shuffle之前,MapReduce会对要处理的数据进行分片(split)操作,为每一个分片分配一个...原创 2019-02-21 23:52:25 · 369 阅读 · 0 评论 -
combiner优化
combiner为何物1. Combiner是MR程序中Mapper和Reduce之外的一种组件2. Combiner组件的父类是Reducer3. Combiner和Reducer之间的区别在于运行的位置,Combiner可以看做局部的Reducer(local reducer)4. Reducer接收全局的MapTask 所输出的结果5. Combiner在MapTask节点中运行...原创 2019-02-21 00:07:21 · 486 阅读 · 0 评论