Hadoop
我真的不想学啦
这个作者很懒,什么都没留下…
展开
-
如何自定义InputFormat合并小文件
需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案分析小文件的优化无非以下几种方式:1、在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS2、在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并3、在mapreduce处理时,可采用combineInputFormat提高效率实...原创 2019-11-18 20:05:40 · 199 阅读 · 2 评论 -
hadoop不生成tmp解决办法
解决办法:代码里加入: conf.set("hadoop.tmp.dir","自己的路径名")如:conf.set("hadoop.tmp.dir","E:\\tmp\\hadoop-abc");原创 2019-11-12 11:27:33 · 4544 阅读 · 5 评论 -
PriviledgedActionException as:root (auth:SIMPLE) cause:0: No such file or directory
刚学MapReduce.写WordCount的代码(代码没问题的情况下) , 运行后报错:错误代码19/11/12 07:57:19 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id19/11/12 07:57:19 INFO jvm.JvmMetric...原创 2019-11-12 09:11:00 · 1703 阅读 · 4 评论 -
HDFS新增节点与删除节点具体操作流程
服役新数据节点需求基础:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。准备新节点第一步:复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来,作为我们新的节点 第二步:修改mac地址以及IP地址修改mac地址命令vim /etc/udev/rules.d/70-persistent-net.rules...原创 2019-11-08 11:23:20 · 476 阅读 · 1 评论 -
HDFS的小文件合并成大文件
前提:在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。由于Hadoop擅长存储大文件,因为大文件的元数据信息比较少,如果Hadoop集群当中有大量的小文件,那么每个小文件都需要维护一份元数据信息,会大大的增加...原创 2019-11-07 16:13:44 · 5954 阅读 · 1 评论 -
refreshNodes: Call From X/IP to X:端口号 failed on connection exception:拒绝访问
问题描述增加新节点刷新时 , 在主节点 执行以下命令刷新namenodehdfs dfsadmin -refreshNodesRefresh nodes successful出现如下问题:[root@kk1 hadoop]# hdfs dfsadmin -refreshNodesrefreshNodes: Call From kk1/192.168.100.100 to kk1:802...原创 2019-11-06 11:02:54 · 355 阅读 · 2 评论 -
Hadoop如何开启JobHistoryServer
进入Hadoop的sbin目录下,输入 :./mr-jobhistory-daemon.sh start historyserver再次输入JPS查看是否打开原创 2019-11-05 09:23:59 · 4259 阅读 · 3 评论