自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

moyuan的博客

博客内容为我在学习过程中的总结与归纳,如有错误,恳请指正,万分感谢!

  • 博客(23)
  • 收藏
  • 关注

原创 Spark1.6.0 HashShuffle shuffle write中间文件数目解析

之前已经知道HashShuffle会在ShuffleMapTask Stage进行如下操作故对此进行实验由于默认使用的shuffle方式是sort,故我们对shuffle的方式进行指定注:HashShuffle在2.X版本被删除,这里使用的是spark1.6.0版本先指定spark.local.dir目录再指定spark.shuffle.manager=为shuffle[hadoop...

2019-05-26 22:01:41 432

原创 Spark kyro序列化测试

spark官网给出的几种调优点其中有一条是数据序列化1.数据序列化,data serialization1)java serialization(slow and large)2)kyro serialization(qucikly compact)注册使用,不注册性能相反使用kryo的三种方式:1)代码中增加conf.set("spark.serializer", "org.apac...

2019-05-21 17:37:06 508

原创 mapreduce作业卡住不动解决

之前spark on yarn,一直是Accept状态,等了很久没有反应,但去云主机上没有问题,当时没放在心上,今天跑hive,mapredcue卡住不动。然后跑了个wordcount作业做实验,一样在下边这卡住不动 19/05/15 01:06:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for you...

2019-05-15 17:19:59 2492

原创 Azkaban soloserver

1.安装部署1.下载https://github.com/azkaban/azkaban2.编译下载完成后解压,进入目录,执行如下操作:./gradlew build -x test编译没什么坑,网速可以的话,很快就编译完了3.简单配置编译结束后,进入解压目录下的/azkaban-solo-server/build/distributions目录两个都可以解压,随便解压一个,...

2019-05-15 12:55:00 377

原创 hadoop添加缓存文件并读取

1.添加文件到缓存 job.addArchiveToClassPath(archive); // 缓存jar包到task运行节点的classpath中 job.addFileToClassPath(file); // 缓存普通文件到task运行节点的classpath中 job.addCacheArchive(uri); // 缓存压缩包文件到task运行节点的工作目录 job.ad...

2019-04-28 23:50:58 1871

原创 编译Spark2.4.2源码

Spark源码的编译,可以查阅下述文档来进行编译:http://spark.apache.org/docs/latest/building-spark.html可从文档中得知,编译前置环境要求:1.Maven 3.5.4+2.Java 8在这里我们使用Spark 源码包 中 /dev/make-distribution.sh脚本进行源码编译,通过查看该脚本我们可以发现一些参数设置上的原由...

2019-04-28 13:24:56 691

原创 Hive元数据学习笔记

Hive在MySQL中的元数据信息如下所示:| BUCKETING_COLS || CDS || COLUMNS_V2 || DATABASE_PARAMS || DBS || DB_PRIVS ...

2019-04-18 17:08:11 541

原创 自定义UDF,并整合到Hive源码

在Hive中已经为我们提供了部分函数但是在生产实践当中,这些还远远不够,我们可以通过Hive官网提供的方法https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateFunction,来创建自定义函数。但在这里,我们介绍另外一种较为繁琐的方法,将UDF整合到hive源码...

2019-04-18 14:21:37 186

原创 HUE3.9搭建并配置HDFS,Hive

运行环境:hadoop-2.6.0-cdh5.7.0hive-1.1.0-cdh5.7.0hue-3.9.0-cdh5.7.01.下载前置环境 yum install -y ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxm...

2019-04-17 15:15:31 484 1

转载 hdfs支持lzo压缩相关配置

本文转载至https://blog.csdn.net/weixin_40420525/article/details/84869883,并进行实践,总结了其中遇到的问题。1前置环境:1.java环境与maven2.安装前置库(如果已经编译过Hadoop,这些东西都应该下载过) yum -y install lzo-devel zlib-devel gcc autoconf autom...

2019-04-16 17:20:57 842

原创 Linux向qq邮箱发送html表格以及遇到的问题

由于是实验,做的比较简陋,qq邮箱直接显示html界面,有诸多要求,本人对html不太擅长,详情可以参考http://www.ruanyifeng.com/blog/2013/06/html_email.htmllinux向qq发送邮件参考另一篇博客:https://blog.csdn.net/qq_24363849/article/details/89214348成功后界面如下:1.l...

2019-04-11 23:55:45 1522 1

原创 Linux如何向qq发送邮件并携带附件

1.开启qq邮箱的SMTP,并获取授权码,如下所示:1.进入qq邮箱的设置2.进入账户3.开启SMTP服务,并且获取到授权码2.关闭Linux机器的sendmail服务,开启postfix服务 [root@hadoop001 ~]# service sendmail stop [root@hadoop001 ~]# service postfix start [roo...

2019-04-11 16:39:31 2767

原创 shell零基础学习

1.入门在shell脚本的开头往往有一句话来定义使用哪种sh解释器来解释脚本,通常是如下两种(1) #!/bin/sh(2) #!/bin/bash两者的区别联系: 1.sh一般为bash的软链接 2.sh调用执行脚本相当于打开了bash的POSIX标准模式 3.#!/bin/bash --posix和#!/bin/sh效果差不多执行shell脚本的方式通常有如下三种:b...

2019-04-11 15:09:17 247

原创 kafka-manager监控工具的搭建(sbt安装与编译)以及遇到的问题

1.下载sbthttp://www.scala-sbt.org/download.html2.解压sbt [hadoop@hadoop01004 software]$ tar -zxvf sbt-0.13.16.tgz -C /home/hadoop/app/3.配置sbt环境变量这个版本的sbt编译不了最新的kafka-manager,如下只是安装过程 [hadoop@hadoo...

2019-04-10 19:00:11 1599

原创 kafka创建topic报错:replication factor: 3 larger than available brokers:0

完整报错信息:Error while executing topic command : replication factor: 3 larger than available brokers: 0[hadoop@hadoop01001 kafka]$ kafka-topics.sh --create --zookeeper hadoop01001:2181 --replication-fact...

2019-04-10 15:07:19 1998

原创 Kafka 0.10.1.0 集群的搭建以及启动

kafka cluster机器:机器名称hadoop01001hadoop01002hadoop01003【安装目录】: /home/hadoop/app1.将scala同步到集群其他机器(scala 2.11版本) [hadoop@hadoop software]$ scp scala-2.11.8.tgz hadoop01001:/home/hadoop/software [h...

2019-04-10 14:57:30 959

原创 MapReduce nums of splits理解

首先看下图1.Split个数的确定由图可知,一个split对应一个MapperTask,一个ReducerTask对应的输出为一个partition。是故,nums of splits,即可理解成为nums of map,即map的个数等于split的个数。MapReduce在处理大文件的时候,会根据一定的规则把大文件切分成多个,这样能够提高map的并行度。划分出来的就是InputSpl...

2019-04-08 11:08:24 441

原创 hdfs损坏block定位以及修复

在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行,普通用户无权限。可通过hdfs fsck来查看该命令的帮助文档,如下图所示:1.手工修复 hdfs debug1)造一份数据上传到hdfs [hadoop@hadoop001 data]$ hadoop fs -put test.tx...

2019-04-06 15:21:37 6116 2

原创 sqoop安装以及mysql->hive, hive->mysql过程,过程中遇到的问题

sqoop安装1.下载sqoop安装包,解压( http://archive.cloudera.com/cdh5/cdh/5/)挑选与hadoop,hive对应的版本。否则导数据会失败2.拷贝MySQLDriver到sqoop目录的lib目录下(之后还需导入包,在导数据部分说)3.修改sqoop conf目录下sqoop-env.sh文件增加以下内容具体HADOOP_HOME和HIVE...

2019-04-05 22:02:10 175

原创 编译Hadoop2.6.0-cdh-5.7.0源码支持五种压缩方式

1.编译环境准备1.先下载源码包hadoop-2.6.0-cdh5.7.0-src.tar.gz,解压后cd进入源码目录下,打开BUILDING.txt,如下图:根据文档,准备编译所用环境,本次所用环境如下:centos6.9jdk1.7(注:该版本hadoop的编译必须使用jdk1.7)maven3.3.9版本Findbugs1.3.9Protocol2.5.0hadoop-2...

2019-04-05 14:21:32 233

原创 git操作

git 实践中遇到的操作1.修改本地branch名后,并提交到远端,发现远端的oldbranch依旧存在。1.修改branch名: 1) git branch -m oldname newname 2) git push --delete origin oldname (origin因人而异 git remote add **origin** git@git..........) ...

2019-03-31 13:38:33 87

原创 Hadoop HA入门笔记(HDFS HA YARN HA)

Hadoop HA(3台)HDFS HANameNodeNameNode(standby)替换了单节点伪分布式的SNNHA中不再有SNN,而是多了一个NN节点(standby),弥补了SNNcheckpoint的不足NN节点挂了,就不能提供对外服务两个NN节点(实时的,任何时刻只有1台active对外,另外一台是standby 实时备份 进行ls cat等操作时,NameNod...

2019-03-29 11:56:54 150

原创 Hadoop入门笔记

**Hadoop HA入门笔记**欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:...

2019-03-28 16:13:54 185

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除