![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 76
mo_yuanyy
博客内容为我在学习过程中的总结与归纳,如有错误,恳请指正,万分感谢!
展开
-
自定义UDF,并整合到Hive源码
在Hive中已经为我们提供了部分函数但是在生产实践当中,这些还远远不够,我们可以通过Hive官网提供的方法https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateFunction,来创建自定义函数。但在这里,我们介绍另外一种较为繁琐的方法,将UDF整合到hive源码...原创 2019-04-18 14:21:37 · 185 阅读 · 0 评论 -
编译Spark2.4.2源码
Spark源码的编译,可以查阅下述文档来进行编译:http://spark.apache.org/docs/latest/building-spark.html可从文档中得知,编译前置环境要求:1.Maven 3.5.4+2.Java 8在这里我们使用Spark 源码包 中 /dev/make-distribution.sh脚本进行源码编译,通过查看该脚本我们可以发现一些参数设置上的原由...原创 2019-04-28 13:24:56 · 689 阅读 · 0 评论 -
hadoop添加缓存文件并读取
1.添加文件到缓存 job.addArchiveToClassPath(archive); // 缓存jar包到task运行节点的classpath中 job.addFileToClassPath(file); // 缓存普通文件到task运行节点的classpath中 job.addCacheArchive(uri); // 缓存压缩包文件到task运行节点的工作目录 job.ad...原创 2019-04-28 23:50:58 · 1868 阅读 · 0 评论 -
HUE3.9搭建并配置HDFS,Hive
运行环境:hadoop-2.6.0-cdh5.7.0hive-1.1.0-cdh5.7.0hue-3.9.0-cdh5.7.01.下载前置环境 yum install -y ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxm...原创 2019-04-17 15:15:31 · 483 阅读 · 1 评论 -
sqoop安装以及mysql->hive, hive->mysql过程,过程中遇到的问题
sqoop安装1.下载sqoop安装包,解压( http://archive.cloudera.com/cdh5/cdh/5/)挑选与hadoop,hive对应的版本。否则导数据会失败2.拷贝MySQLDriver到sqoop目录的lib目录下(之后还需导入包,在导数据部分说)3.修改sqoop conf目录下sqoop-env.sh文件增加以下内容具体HADOOP_HOME和HIVE...原创 2019-04-05 22:02:10 · 174 阅读 · 0 评论 -
Kafka 0.10.1.0 集群的搭建以及启动
kafka cluster机器:机器名称hadoop01001hadoop01002hadoop01003【安装目录】: /home/hadoop/app1.将scala同步到集群其他机器(scala 2.11版本) [hadoop@hadoop software]$ scp scala-2.11.8.tgz hadoop01001:/home/hadoop/software [h...原创 2019-04-10 14:57:30 · 958 阅读 · 0 评论 -
kafka创建topic报错:replication factor: 3 larger than available brokers:0
完整报错信息:Error while executing topic command : replication factor: 3 larger than available brokers: 0[hadoop@hadoop01001 kafka]$ kafka-topics.sh --create --zookeeper hadoop01001:2181 --replication-fact...原创 2019-04-10 15:07:19 · 1996 阅读 · 0 评论 -
hdfs损坏block定位以及修复
在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。可通过hdfs fsck来查看该命令的帮助文档,如下图所示:1.手工修复 hdfs debug1)造一份数据上传到hdfs [hadoop@hadoop001 data]$ hadoop fs -put test.tx...原创 2019-04-06 15:21:37 · 6111 阅读 · 2 评论 -
kafka-manager监控工具的搭建(sbt安装与编译)以及遇到的问题
1.下载sbthttp://www.scala-sbt.org/download.html2.解压sbt [hadoop@hadoop01004 software]$ tar -zxvf sbt-0.13.16.tgz -C /home/hadoop/app/3.配置sbt环境变量这个版本的sbt编译不了最新的kafka-manager,如下只是安装过程 [hadoop@hadoo...原创 2019-04-10 19:00:11 · 1597 阅读 · 0 评论 -
Hadoop入门笔记
**Hadoop HA入门笔记**欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:...原创 2019-03-28 16:13:54 · 183 阅读 · 0 评论 -
MapReduce nums of splits理解
首先看下图1.Split个数的确定由图可知,一个split对应一个MapperTask,一个ReducerTask对应的输出为一个partition。是故,nums of splits,即可理解成为nums of map,即map的个数等于split的个数。MapReduce在处理大文件的时候,会根据一定的规则把大文件切分成多个,这样能够提高map的并行度。划分出来的就是InputSpl...原创 2019-04-08 11:08:24 · 440 阅读 · 0 评论 -
Hadoop HA入门笔记(HDFS HA YARN HA)
Hadoop HA(3台)HDFS HANameNodeNameNode(standby)替换了单节点伪分布式的SNNHA中不再有SNN,而是多了一个NN节点(standby),弥补了SNNcheckpoint的不足NN节点挂了,就不能提供对外服务两个NN节点(实时的,任何时刻只有1台active对外,另外一台是standby 实时备份 进行ls cat等操作时,NameNod...原创 2019-03-29 11:56:54 · 148 阅读 · 0 评论 -
hdfs支持lzo压缩相关配置
本文转载至https://blog.csdn.net/weixin_40420525/article/details/84869883,并进行实践,总结了其中遇到的问题。1前置环境:1.java环境与maven2.安装前置库(如果已经编译过Hadoop,这些东西都应该下载过) yum -y install lzo-devel zlib-devel gcc autoconf autom...转载 2019-04-16 17:20:57 · 841 阅读 · 0 评论 -
编译Hadoop2.6.0-cdh-5.7.0源码支持五种压缩方式
1.编译环境准备1.先下载源码包hadoop-2.6.0-cdh5.7.0-src.tar.gz,解压后cd进入源码目录下,打开BUILDING.txt,如下图:根据文档,准备编译所用环境,本次所用环境如下:centos6.9jdk1.7(注:该版本hadoop的编译必须使用jdk1.7)maven3.3.9版本Findbugs1.3.9Protocol2.5.0hadoop-2...原创 2019-04-05 14:21:32 · 231 阅读 · 0 评论