2018年05月_卢子墨

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 MapReduce 的 Shuffle 机制

1.1、概述1、MapReduce 中，map 阶段处理的数据如何传递给 reduce 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 Shuffle；2、Shuffle: 数据混洗 ——（核心机制：数据分区partitioner，排序soft，合并combiner，缓存）；3、具体来说：就是将 maptask 输出的处理结果数据，分发给 reducetask，并在分发的过程中...

2018-05-25 17:29:23 338

原创解决MapReduce中多个小文件合并成大文件问题

package inputformat;import java.io.IOException;import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop...

2018-05-25 16:29:35 2733 1

翻译 Java中的String，StringBuilder，StringBuffer三者的区别

1.首先说运行速度，或者说是执行速度，在这方面运行速度快慢为：StringBuilder > StringBuffer > String。String最慢的原因：String为字符串常量，而StringBuilder和StringBuffer均为字符串变量，即String对象一旦创建之后该对象是不可更改的，但后两者的对象是变量，是可以更改的。2. StringBuffer与String...

2018-05-25 16:20:31 147

原创 MapReduce多表join

本文以user.log、goods.log两张表的合并来举例。1、编写mapper类class JoinMRMapper extends Mapper<LongWritable, Text, Text, Text> { @Override protected void map(LongWritable key, Text value, Context context) th...

2018-05-23 11:21:16 506

原创虚拟机配置免密登录出现bash:scp-copy-id:command found错误（已解决）

问题： bash:scp-copy-id:command found解决方法：安装scp的软件包：yum install openssh-clients (注：千万不要漏掉clients的这个s,否则无法安装)

2018-05-15 14:10:22 865

原创 Hadoop中创建maven项目是需要的pom依赖

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/m...

2018-05-11 10:44:02 6279

转载 hadoop多次（两次以上）初始化以后，无法启动DataNode节点（已解决）

1、问题描述：多次格式化文件系统时，会出现datanode无法启动2、问题产生原因：执行文件系统格式化时（即执行命令$ bin/hadoop namenode -format 后），会在namenode数据文件夹（即配置文件中dfs.name.dir在本地系统的路径）中保存一个current/VERSION（我的路径为 usr/local/hadoop/tmp/dfs/name/curre...

2018-05-11 10:31:55 9294

原创关于CRT连接失败，出现 openssh-daemon is stopped 问题

问题：1、输入 service sshd start 之后，显示 sshd 启动成功；2、输入service sshd status 查询状态时，却显示openssh-daemon is stopped。解决方法：1、首先用yum remove openssh-server删掉原先的包；2、重新安装 yum install openssh-server ;3、输入启...

2018-05-09 14:35:01 3538

json paser 属于idea插件用于解析json

懂得都懂 json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser

2022-04-22

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

分别取对应的文件夹下解压，之后将这两个文件替换到 hadoop-2.*.*/bin目录下即可 winutils.exe、hadoop.dll

2019-04-17

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版

（限于文件1.3G大小，分享为云盘下载地址，请自行下载）本书基于Spark2.2.0版本，以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心，以Spark内核解密为基石，分为上篇、中篇、下篇，对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码，从一个动手实战案例入手，循序渐进地全面解析了Spark2.2新特性及Spark内核源码；中篇选取Spark开发中具有代表的经典学习案例，深入浅出地介绍，在案例中综合应用Spark的大数据技术；下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。

2019-04-16

TA关注的人

lukabruce的博客

原创 MapReduce 的 Shuffle 机制

原创解决MapReduce中多个小文件合并成大文件问题

翻译 Java中的String，StringBuilder，StringBuffer三者的区别

原创 MapReduce多表join

原创虚拟机配置免密登录出现bash:scp-copy-id:command found错误（已解决）

原创 Hadoop中创建maven项目是需要的pom依赖

转载 hadoop多次（两次以上）初始化以后，无法启动DataNode节点（已解决）

原创关于CRT连接失败，出现 openssh-daemon is stopped 问题

json paser 属于idea插件用于解析json

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版

spark-2.3.1-bin-hadoop2.9-without-hive.tgz

spark-2.3.1-bin-hadoop2-without-hive.tgz

spark无法启动，日志无报错信息，具体如图片

json paser 属于idea插件 用于解析json

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

《Spark大数据商业实战三部曲：内核解密 商业案例 性能调优》2018.02出版

spark-2.3.1-bin-hadoop2.9-without-hive.tgz

spark-2.3.1-bin-hadoop2-without-hive.tgz

spark无法启动，日志无报错信息，具体如图片

json paser 属于idea插件用于解析json

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版