hadoop
百物易用是苏生
企鹅小兵,搞搞大数据
展开
-
hadoop:namenode/datanode启动失败 incompatible错误解决
测试环境好久没去关注,今天要测试东西,发现hdfs挂了小伙子们只管自己开发用的kafka\zookeeper没挂,开发后台应用就不管其它组件了年轻人不讲武德然后ambari前端启动hdfs全部服务datanode都ok,就是两个namenode 死活起不来查看后台日志,就是 namespaceID incompatible[namenode都挂了,hdfs就是没用了,把启动了的datanode等相关组件先关了,以免影响]查资料,hdfs-site.xml 中的dfs.namenode.nam原创 2021-01-29 11:31:22 · 315 阅读 · 0 评论 -
pyspark中存储完数据后同时创建hive外部表
有需求,各种批处理完数据,因部分分析人员不具备spark的能力,比较熟悉sql环境操作需要每个批处理的统计数据文件都能用sql查询,现阶段zeppelin下hive/presto两种都是类sql供分析人员使用下面是zeppelin中pyspark下的简便离子,真实环境,需要hadoop+hive+spark环境并在spark提交时开启hive支持注意:千万不要想当然认为数据类型,在另外的地方写创建表和添加分区,比如默认计算都是bigint,如果在hive中用int创建不报错,但是使用查询会报错原创 2021-01-08 18:59:48 · 549 阅读 · 0 评论 -
【hadoop】二 使用webHDFS 对hdfs文件系统操作注意事项
主要是 https://blog.csdn.net/u010720408/article/details/89679474的补充1. op=OPEN 只用于单独的文件查看下载,无法用于 文件夹 下载,而且用的是datanode的dfs.datanode.http.address中的port,后面还要指定namenoderpcaddress curl -v -i "http://datanode...原创 2019-04-29 19:48:02 · 925 阅读 · 0 评论 -
webhdfs访问出现 Operationcategory READ is no suported in state standby.异常,解决记录
Operationcategory READ is no suported in state standby 之前已经配置好了的,能正常查看、下载文件,但是因为一次hbase的region坏了缘故,重启hdfs之后就一直不行。查阅webhdfs官网:https://hadoop.apache.org/docs/r1.0.4/webhdfs.html以及相关资料后,说in state s...原创 2019-06-21 14:49:41 · 706 阅读 · 0 评论 -
菜鸡在window下的hadoop安装艰难踩坑,各路问题层出不穷(繁琐版)
此文并不是window下安装hadoop最精简的博文,里面是我安装的整个过程遇到的问题,里面我走了很多弯路,相信菜鸡如我都能安装成功,你也可以。===============================================================================hadoop是一个分布式集群的框架,hdfs就是其中的分布式文件系统,hadoop在概念上...原创 2019-07-06 21:00:03 · 597 阅读 · 0 评论 -
菜鸡踩坑之window下hadoop单机安装 (精简版)
承接上一篇的踩坑之路,浓缩留下精简版。一:hadoop下载与环境变量配置hadoop官网下载自己的版本:https://hadoop.apache.org/release.html,hadoop-2.6.0.tar.gz 解压放入自己的目录如F:\devlopSoftwareDeploy\hadoop-2.6.0在环境变量中设置:HADOOP_HOME 设为F:\devlop...原创 2019-07-06 21:41:49 · 726 阅读 · 0 评论 -
hdsf有个节点心跳挂了,排查记录简述
开发环境配置不行,时常会因为硬盘满了挂掉,但这次排查后,并不是这个原因,也排除了防火墙问题;ambari上hdfs启动组件,总是有一台心跳不报,heatbeat lost,但部分组件例如hbase等等运行良好;查看配置,发现有用到 机器名、机器名.localdomain两种情况;ping 两种,其中机器名的ping不通;检查该机器hosts文件,发现挂的那台最后加了个 127.0....原创 2019-07-16 14:09:29 · 217 阅读 · 0 评论 -
spark RDD saveAsTextFile没有设置重复写入的参数,只能用hdfs先删再写
spark RDD saveAsTextFile(path)也是调用的 hdfs的saveAsHadoopFile函数,但是并没有什么标志设置是否重写。所以可以在代码中用hadoop的删除文件代码模块执行后,再写入。(方案一:判定文件路径是否存在,存在则删除,方案二:try catch包含删除操作代码,然后再删除)//spark scalaimport apache.hadoop....原创 2019-08-21 09:27:05 · 4558 阅读 · 0 评论