CB_creayblack-CSDN博客

原创 namenode启动不了原因以及解决方法

前几天把Hadoop玩坏了重装了一次Hadoop 发现namenode启动不了报错如下：java.io.IOException: Failed on local exception: java.net.SocketException: Unresolved address; Host Details : local host is: “hadoop02”; destination host is: (unknown):0;解决方法：vim /etc/hosts进入后将全部删除，添加如下：（你的

2020-10-22 15:29:34 3607 3

原创 Spark入门安装教程

这里写自定义目录标题基础环境下载安装文件配置相关文件验证Spark是否安装成功基础环境Linux系统：Centos 7Hadoop：2.7.1JDK：1.8及以上版本Spark：2.2.0下载安装文件下载地址配置相关文件修改spark-env.sh文件解压缩后，需要修改Spark配置文件spark-env.sh。进入spark目录后命令如下：cp ./conf/spark-env.sh.template ./conf/spark-env.sh修改.bashrc文件.

2020-09-26 19:18:35 404

原创 CombineTextInputFormat 切片机制以及实例

CombineTextInputFormat 切片机制原理以及应用场景框架默认的 TextInputFormat 切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个 MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其地下。应用场景CombineTextInputFormat 用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个 MapTask 处理。虚拟存储切片最大值设置CombineText

2020-05-13 14:59:01 1122

原创 MR中手机流量简单排序

前言此节与上一节联系，可以一起学习序列化和排序：序列化实例：手机流量统计MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。自定义排序WritableComparableFlowBean对象(o）做为key传输，需要实现Writ...

2020-04-25 12:29:49 555

原创 Hadoop序列化讲解及实例

什么是序列化？序列化，英文称作Serialization。指的是一个结构化对象可转变为字节流以便在网络上传输或者写到磁盘进行永久存储的过程。序列化在Hadoop中，主要体现以下两个特点：1.进程间通信：不同机子可将序列化结果进行相互传递2.永久存储：一个对象序列化后，可以通过编码永久存储在磁盘中**在Hadoop中，系统中多个节点上进程间的通信是通过“远程过程调用”（RPC）实现的。RP...

2020-04-22 17:29:38 336

原创在Hadoop中进行简单的词频统计

在Hadoop中进行简单的词频统计1.建立WCMapper代码如下：import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;public class W...

2020-04-19 20:45:44 2621

原创初学—在Linux中Hadoop环境配置以及安装jdk

初学—在Linux中Hadoop环境配置以及安装jdk关闭图形界面在linux中，我们不想让图形界面影响到我们内存的运行速度，那么我们怎么关闭呢？root登陆终端**输入命令:vi /etc/inittab 查看两种界面的启动模式：**退出vi模式，输入命令`systemctl get-default` 查看当前系统启动模式：输入命令：`systemctl set-d...

2020-04-04 12:45:36 435

m0_46802377的博客