- 博客(7)
- 收藏
- 关注
原创 namenode启动不了原因以及解决方法
前几天把Hadoop玩坏了 重装了一次Hadoop 发现namenode启动不了报错如下: java.io.IOException: Failed on local exception: java.net.SocketException: Unresolved address; Host Details : local host is: “hadoop02”; destination host is: (unknown):0; 解决方法: vim /etc/hosts 进入后将全部删除,添加如下: (你的
2020-10-22 15:29:34
3584
3
原创 Spark入门安装教程
这里写自定义目录标题基础环境下载安装文件配置相关文件验证Spark是否安装成功 基础环境 Linux系统:Centos 7 Hadoop:2.7.1 JDK:1.8及以上版本 Spark:2.2.0 下载安装文件 下载地址 配置相关文件 修改spark-env.sh文件 解压缩后,需要修改Spark配置文件spark-env.sh。 进入spark目录后 命令如下: cp ./conf/spark-env.sh.template ./conf/spark-env.sh 修改.bashrc文件 .
2020-09-26 19:18:35
399
原创 CombineTextInputFormat 切片机制以及实例
CombineTextInputFormat 切片机制 原理以及应用场景 框架默认的 TextInputFormat 切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个 MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其地下。 应用场景 CombineTextInputFormat 用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个 MapTask 处理。 虚拟存储切片最大值设置 CombineText
2020-05-13 14:59:01
1090
原创 MR中手机流量简单排序
前言 此节与上一节联系,可以一起学习序列化和排序:序列化实例:手机流量统计 MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。 默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。 自定义排序WritableComparable FlowBean对象(o)做为key传输,需要实现Writ...
2020-04-25 12:29:49
549
原创 Hadoop序列化讲解及实例
什么是序列化? 序列化,英文称作Serialization。指的是一个结构化对象可转变为字节流以便在网络上传输或者写到磁盘进行永久存储的过程。 序列化在Hadoop中,主要体现以下两个特点: 1.进程间通信:不同机子可将序列化结果进行相互传递 2.永久存储:一个对象序列化后,可以通过编码永久存储在磁盘中** 在Hadoop中,系统中多个节点上进程间的通信是通过“远程过程调用”(RPC)实现的。RP...
2020-04-22 17:29:38
324
原创 在Hadoop中进行简单的词频统计
在Hadoop中进行简单的词频统计 1.建立WCMapper 代码如下: import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class W...
2020-04-19 20:45:44
2607
原创 初学—在Linux中Hadoop环境配置以及安装jdk
初学—在Linux中Hadoop环境配置以及安装jdk 关闭图形界面 在linux中,我们不想让图形界面影响到我们内存的运行速度,那么我们怎么关闭呢? root登陆终端 **输入命令: vi /etc/inittab 查看两种界面的启动模式:** 退出vi模式,输入命令 `systemctl get-default` 查看当前系统启动模式: 输入命令: `systemctl set-d...
2020-04-04 12:45:36
434
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人