hadoop
文章平均质量分 92
lsr40
菜鸡一个,还请见谅
展开
-
【Hadoop】Dfs-Fuse编译使用
一、背景dfs-fuse,可以将hdfs上的目录挂载到本地的目录,就可以直接通过linux的命令直接访问hdfs上的数据大多数云上的hadoop环境,或者下载别人编译好的包中,并没有fuse的相关脚本和命令因此我们要自己编译hadoop我是基于Hadoop2.8.5编译的hadoop编译中,遇到的问题还是挺多的,而且要安装一些其他的服务,会在本文中逐一说明二、准备环境hadoop的源码根目录下有个:BUILDING.txt里面详细描述了,需要什么环境1、cma原创 2022-01-09 16:13:55 · 2200 阅读 · 1 评论 -
【Hadoop】RPC在client端的源码解析
我们从一段客户端的代码开始特别感谢:Hadoop RPC调用实例分析:https://blog.csdn.net/yexiguafu/article/details/107378511(作者:叹了口丶气)Hadoop 2.X HDFS源码剖析(作者:徐鹏)原创 2021-05-25 22:40:23 · 583 阅读 · 5 评论 -
【hadoop】HDFS块修复
背景HDFS场景下,有时候某些异常会导致丢失文件块!这时候,我们如何处理这些文件块,或者说这些文件块是否还有救?丢文件块是一种统一的说法,实际上是两种情况,一个是Corrupt blocks,一个是Missing replicas先说个背景知识:当我上传一个文件到HDFS,这个文件在HDFS上看得到,也可以正常使用,实际上在磁盘上会存两种类型的文件举例:1、blk_10737431192、blk_1073743119_2295.meta第一个文件就是实际上的数据,如果你的文件是文.原创 2021-03-25 22:24:47 · 5581 阅读 · 1 评论 -
【yarn】Yarn Capacity Scheduler配置(文末附上fair的链接)
本文是一篇设置CapacityScheduler的队列的Demo以前一直没有考虑过这个事情,作为一个数据开发,我只是拿到了我使用的队列,但是一直没有思考过,应该如何划分队列,所以接下来我会记录下CapacityScheduler和FairScheduler的Demo(FifoScheduler我就不说了,好像基本没什么公司用吧),当然这篇文章只记录CapacityScheduleryarn的队列有三种模式分别是先入先出,容量调度,公平调度,分别对应以下三个类,大家有兴趣可以阅读下源码or原创 2021-01-13 21:53:12 · 1184 阅读 · 0 评论 -
【Hadoop】resourcemanager.recovery.RMStateStore: State store operation failed
一、背景今天又碰见了一个很鬼的问题,yarn的ui上nodemanager都是active,而且资源也完全充足,但是我提交任务的时候就卡主了!而且是什么类型的任务都提交不了,相当于yarn的服务直接不可用,关键是什么参数都没有修改,也没有重启yarn服务,突然他就不行了二、查问题所以我第一反应是查看resourcemanager的日志(记得要查看active的那台)结果我看到了ERROR org.apache.hadoop.yarn.server.resourcemanager.r.原创 2021-01-08 17:19:11 · 1209 阅读 · 4 评论 -
【spark】存储数据到hdfs,自动判断合理分块数量(repartition和coalesce)(一)
本人菜鸟一只,也处于学习阶段,如果有什么说错的地方还请大家批评指出!首先我想说明下该文章是干嘛的,该文章粗略介绍了hdfs存储数据文件块策略和spark的repartition、coalesce两个算子的区别,是为了下一篇文章的自动判断合理分块数做知识的铺垫,如果对于这部分知识已经了解,甚至精通的同学,可以直接跳到该系列的第二篇文章!背景:spark读取Hive表或者HDFS甚至各种框...原创 2018-12-13 19:24:58 · 6608 阅读 · 0 评论 -
Flume的hdfsSink的roll参数不生效的原因(日志上传hdfs)
首先,本人菜鸡一个,只是分享点东西出来,怕自己忘了,也给各位大佬填填坑当当垫背的事情是这样的:通过exec作为一个源,将tail -f /opt/20171130.log这样命令接收到的数据上传到HDFS先给个官网路径:http://flume.apache.org/FlumeUserGuide.html在官网这个页面上,直接Ctrl+F,搜索hdfs,就可以看到关于hdf原创 2017-11-30 15:51:25 · 7928 阅读 · 0 评论 -
Hbase在 Windows下运行报错 IllegalArgumentException: Pathname /D:/download/repository/org/apache/.....
写在文前,本人菜鸟一个,如果文章中有说的不对的地方,还望各路大神指出,本人愿意虚心接受!首先描述下环境。我正在使用Hbase中java mapreduce的API(就想做个数据迁移,其实就是把A表中的数据,移动到B表中),写完了之后并没有打成jar包,在服务器上运行,只是在本地(也就是Windows环境里)做了个测试。遇到问题如下:1、首先记录下我的开发过程。开启服务:这里就不原创 2017-08-28 13:59:35 · 5590 阅读 · 0 评论 -
hbase通过mapreduce进行数据导入迁移报错
说在文前,本人菜鸟一只,要是文中有什么说的不对的话,请大家批评指正~!!hbase有这样的功能,通过mapreduce进行数据导入或者迁移(也可以自己编码的,在Windows上编码也会有点报错,具体看我另一篇文章,里面的代码是个数据迁移的功能)。执行hbase/lib包下面的hbase-server-0.98.6-hadoop2.jar这个jar包里面有些类可以供我们直接使用。例如:原创 2017-08-30 15:47:55 · 4493 阅读 · 0 评论 -
在Windows下开发hadoop的MapReduce的坑!!!
写在文前,本人菜鸡,写个文章,单纯为了记录下心路历程还有填坑,如果有说错的地方,还望大神指正!今天记录的是在Windows下面开发hadoop的mapreduce的坑。先说下流程吧:1、安装Myeclipse(这还用说嘛???)2、将hadoop-eclipse-plugin-2.6.0.jar(这个jar百度下应该是有的)这个jar放在Myeclipse的安装目录的plugins3、在Windo...原创 2017-09-06 16:26:45 · 11028 阅读 · 9 评论