- 博客(8)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
原创 MapReduce 的 Shuffle 机制
1.1、概述1、MapReduce 中,map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 Shuffle;2、Shuffle: 数据混洗 ——(核心机制:数据分区partitioner,排序soft,合并combiner,缓存);3、具体来说:就是将 maptask 输出的处理结果数据,分发给 reducetask,并在分发的过程中...
2018-05-25 17:29:23 338
原创 解决MapReduce中多个小文件合并成大文件问题
package inputformat;import java.io.IOException;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop...
2018-05-25 16:29:35 2733 1
翻译 Java中的String,StringBuilder,StringBuffer三者的区别
1.首先说运行速度,或者说是执行速度,在这方面运行速度快慢为:StringBuilder > StringBuffer > String。String最慢的原因:String为字符串常量,而StringBuilder和StringBuffer均为字符串变量,即String对象一旦创建之后该对象是不可更改的,但后两者的对象是变量,是可以更改的。2. StringBuffer与String...
2018-05-25 16:20:31 147
原创 MapReduce多表join
本文以user.log、goods.log两张表的合并来举例。1、编写mapper类class JoinMRMapper extends Mapper<LongWritable, Text, Text, Text> { @Override protected void map(LongWritable key, Text value, Context context) th...
2018-05-23 11:21:16 506
原创 虚拟机配置免密登录出现bash:scp-copy-id:command found错误(已解决)
问题: bash:scp-copy-id:command found解决方法: 安装scp的软件包:yum install openssh-clients (注:千万不要漏掉clients的这个s,否则无法安装)
2018-05-15 14:10:22 865
原创 Hadoop中创建maven项目是需要的pom依赖
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/m...
2018-05-11 10:44:02 6279
转载 hadoop多次(两次以上)初始化以后,无法启动DataNode节点(已解决)
1、问题描述: 多次格式化文件系统时,会出现datanode无法启动2、问题产生原因: 执行文件系统格式化时(即执行命令$ bin/hadoop namenode -format 后),会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个current/VERSION(我的路径为 usr/local/hadoop/tmp/dfs/name/curre...
2018-05-11 10:31:55 9294
原创 关于CRT连接失败,出现 openssh-daemon is stopped 问题
问题:1、输入 service sshd start 之后 , 显示 sshd 启动成功;2、输入service sshd status 查询状态时,却显示openssh-daemon is stopped。解决方法:1、首先用yum remove openssh-server删掉原先的包;2、重新安装 yum install openssh-server ;3、输入启...
2018-05-09 14:35:01 3538
json paser 属于idea插件 用于解析json
2022-04-22
适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件
2019-04-17
《Spark大数据商业实战三部曲:内核解密 商业案例 性能调优》2018.02出版
2019-04-16
spark无法启动,日志无报错信息,具体如图片
2019-01-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人