hadoop
文章平均质量分 79
董可伦
博主曾获2014年全国数学建模竞赛国家一等奖;有八年大数据经验,大数据领域专家、CSDN博客专家。Apache Hudi Active Contributor,喜欢开源,擅长并乐于分享Flink、Hudi、Spark等大数据领域的技术
展开
-
Hadoop源码编译打包
记录总结Hadoop源码编译打包过程,根据源码里的文档,一开始以为不支持在Windows系统上打包,只支持Unix和Mac,所以这里我在自己虚拟机centos7系统上编译,后来在文档后面部分才发现也支持在Windows上编译,不过还需要安装Visual Studio 2010,可能不如还不如在虚拟机上编译简单,如果想尝试在Windows上编译,可以看源码里的文档中的部分因之前没有下载过hadoop的源码,所以需要先下载hadoop的源码git命令克隆源码,克隆的过程中可能会有异常:因文件名过长,不能创建原创 2022-06-26 19:52:42 · 842 阅读 · 1 评论 -
org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
我的原创地址:https://dongkelun.com/2020/11/17/hadoopExcepetion2/前言这个异常发生在Spark读取Windows本地CSV然后show,当然一般情况下不会发生,还有一个条件,项目里加了hbase-client和hbase-mapreduce,具体是哪一个依赖或者两个依赖合起来造成的影响我没有去细究,主要记录解决方法网上也有其他很多情况可能出现这个异常详细异常信息Exception in thread "main" java.lang.Unsa原创 2021-07-15 20:03:43 · 2394 阅读 · 4 评论 -
spark on yarn 配置及异常解决
转载请务必注明原创地址为:http://dongkelun.com/2018/04/16/sparkOnYarnConf/前言YARN 是在Hadoop 2.0 中引入的集群管理器,它可以让多种数据处理框架运行在一个共享的资源池上,并且通常安装在与Hadoop 文件系统(简称HDFS)相同的物理节点上。在这样配置的YARN 集群上运行Spark 是很有意义的,它可以让Spark 在存储数据...原创 2018-05-09 17:12:28 · 1493 阅读 · 0 评论 -
centos7 hadoop 单机模式安装配置
转载请务必注明原创地址为:http://dongkelun.com/2018/03/23/hadoopConf/前言由于现在要用spark,而学习spark会和hdfs和hive打交道,之前在公司服务器配的分布式集群,离开公司之后,自己就不能用了,后来用ambari搭的三台虚拟机的集群太卡了,所以就上网查了一下hadoop+hive的单机部署,以便自己能进行简单的学习,这里记录一下,本来想......原创 2018-05-07 22:31:48 · 13593 阅读 · 7 评论 -
centos7 hadoop 集群安装配置
转载请务必注明原创地址为:http://dongkelun.com/2018/04/05/hadoopClusterConf/前言:本文安装配置的hadoop为分布式的集群,单机配置见:centos7 hadoop 单机模式安装配置 我用的三个centos7, 先将常用环境配置好(CentOS 初始环境配置),设置的ip分别为:192.168.44.138、192.168.44.139,...原创 2018-05-08 09:02:48 · 3228 阅读 · 0 评论 -
HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够
我的原创地址:https://dongkelun.com/2018/07/10/HadoopException/前言这个异常是在在ambari里启动DataNode产生的,其实这个问题很久就发现了,只是没时间去处理,所以之前把发生问题的slave1节点给移除了,现在有时间处理,就又把slave1加上了,所以就有了ambari 异常总结及解决办法里面的问题,这个java权限不够的问题,在添加...原创 2018-08-03 09:15:09 · 4618 阅读 · 1 评论 -
打印(获取)HDFS路径下所有的文件名(包括子目录下的)
我的原创地址:https://dongkelun.com/2018/11/20/getAllHDFSFileNames/前言自己有个需求,如题,需要获取HDFS路径下所有的文件名,然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到,还要递归的去获取子目录下的文件名,于是查了一下,最后用Hadoop的API搞定,这里记录下,方便以后会用到。1、数据测试路径:/tm......原创 2018-11-21 00:16:52 · 17512 阅读 · 0 评论