mo_yuanyy-CSDN博客

原创 Spark1.6.0 HashShuffle shuffle write中间文件数目解析

之前已经知道HashShuffle会在ShuffleMapTask Stage进行如下操作故对此进行实验由于默认使用的shuffle方式是sort，故我们对shuffle的方式进行指定注：HashShuffle在2.X版本被删除，这里使用的是spark1.6.0版本先指定spark.local.dir目录再指定spark.shuffle.manager=为shuffle[hadoop...

2019-05-26 22:01:41 524

原创 Spark kyro序列化测试

spark官网给出的几种调优点其中有一条是数据序列化1.数据序列化，data serialization1）java serialization（slow and large）2）kyro serialization（qucikly compact）注册使用，不注册性能相反使用kryo的三种方式：1）代码中增加conf.set("spark.serializer", "org.apac...

2019-05-21 17:37:06 589

之前spark on yarn，一直是Accept状态，等了很久没有反应，但去云主机上没有问题，当时没放在心上，今天跑hive，mapredcue卡住不动。然后跑了个wordcount作业做实验，一样在下边这卡住不动 19/05/15 01:06:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for you...

2019-05-15 17:19:59 2622

原创 Azkaban soloserver

1.安装部署1.下载https://github.com/azkaban/azkaban2.编译下载完成后解压，进入目录，执行如下操作：./gradlew build -x test编译没什么坑，网速可以的话，很快就编译完了3.简单配置编译结束后,进入解压目录下的/azkaban-solo-server/build/distributions目录两个都可以解压，随便解压一个，...

2019-05-15 12:55:00 472

原创 hadoop添加缓存文件并读取

1.添加文件到缓存 job.addArchiveToClassPath(archive); // 缓存jar包到task运行节点的classpath中 job.addFileToClassPath(file); // 缓存普通文件到task运行节点的classpath中 job.addCacheArchive(uri); // 缓存压缩包文件到task运行节点的工作目录 job.ad...

2019-04-28 23:50:58 2059

原创编译Spark2.4.2源码

Spark源码的编译，可以查阅下述文档来进行编译：http://spark.apache.org/docs/latest/building-spark.html可从文档中得知，编译前置环境要求：1.Maven 3.5.4+2.Java 8在这里我们使用Spark 源码包中 /dev/make-distribution.sh脚本进行源码编译，通过查看该脚本我们可以发现一些参数设置上的原由...

2019-04-28 13:24:56 759

原创 Hive元数据学习笔记

Hive在MySQL中的元数据信息如下所示:| BUCKETING_COLS || CDS || COLUMNS_V2 || DATABASE_PARAMS || DBS || DB_PRIVS ...

2019-04-18 17:08:11 708

原创自定义UDF，并整合到Hive源码

在Hive中已经为我们提供了部分函数但是在生产实践当中，这些还远远不够，我们可以通过Hive官网提供的方法https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateFunction，来创建自定义函数。但在这里，我们介绍另外一种较为繁琐的方法，将UDF整合到hive源码...

2019-04-18 14:21:37 246

原创 HUE3.9搭建并配置HDFS，Hive

运行环境:hadoop-2.6.0-cdh5.7.0hive-1.1.0-cdh5.7.0hue-3.9.0-cdh5.7.01.下载前置环境 yum install -y ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxm...

2019-04-17 15:15:31 600 1

转载 hdfs支持lzo压缩相关配置

本文转载至https://blog.csdn.net/weixin_40420525/article/details/84869883，并进行实践，总结了其中遇到的问题。1前置环境：1.java环境与maven2.安装前置库（如果已经编译过Hadoop，这些东西都应该下载过） yum -y install lzo-devel zlib-devel gcc autoconf autom...

2019-04-16 17:20:57 902

原创 Linux向qq邮箱发送html表格以及遇到的问题

由于是实验，做的比较简陋，qq邮箱直接显示html界面，有诸多要求，本人对html不太擅长，详情可以参考http://www.ruanyifeng.com/blog/2013/06/html_email.htmllinux向qq发送邮件参考另一篇博客：https://blog.csdn.net/qq_24363849/article/details/89214348成功后界面如下：1.l...

2019-04-11 23:55:45 1710 1

原创 Linux如何向qq发送邮件并携带附件

1.开启qq邮箱的SMTP，并获取授权码，如下所示：1.进入qq邮箱的设置2.进入账户3.开启SMTP服务，并且获取到授权码2.关闭Linux机器的sendmail服务,开启postfix服务 [root@hadoop001 ~]# service sendmail stop [root@hadoop001 ~]# service postfix start [roo...

2019-04-11 16:39:31 2988

原创 shell零基础学习

1.入门在shell脚本的开头往往有一句话来定义使用哪种sh解释器来解释脚本,通常是如下两种(1) #!/bin/sh(2) #!/bin/bash两者的区别联系： 1.sh一般为bash的软链接 2.sh调用执行脚本相当于打开了bash的POSIX标准模式 3.#!/bin/bash --posix和#!/bin/sh效果差不多执行shell脚本的方式通常有如下三种：b...

2019-04-11 15:09:17 303

原创 kafka-manager监控工具的搭建(sbt安装与编译)以及遇到的问题

1.下载sbthttp://www.scala-sbt.org/download.html2.解压sbt [hadoop@hadoop01004 software]$ tar -zxvf sbt-0.13.16.tgz -C ／home/hadoop/app/3.配置sbt环境变量这个版本的sbt编译不了最新的kafka-manager，如下只是安装过程 [hadoop@hadoo...

2019-04-10 19:00:11 1667

原创 kafka创建topic报错:replication factor: 3 larger than available brokers:0

完整报错信息：Error while executing topic command : replication factor: 3 larger than available brokers: 0[hadoop@hadoop01001 kafka]$ kafka-topics.sh --create --zookeeper hadoop01001:2181 --replication-fact...

2019-04-10 15:07:19 2109

原创 Kafka 0.10.1.0 集群的搭建以及启动

kafka cluster机器:机器名称hadoop01001hadoop01002hadoop01003【安装目录】: /home/hadoop/app1.将scala同步到集群其他机器(scala 2.11版本) [hadoop@hadoop software]$ scp scala-2.11.8.tgz hadoop01001:/home/hadoop/software [h...

2019-04-10 14:57:30 1047

原创 MapReduce nums of splits理解

首先看下图1.Split个数的确定由图可知，一个split对应一个MapperTask，一个ReducerTask对应的输出为一个partition。是故，nums of splits，即可理解成为nums of map，即map的个数等于split的个数。MapReduce在处理大文件的时候，会根据一定的规则把大文件切分成多个，这样能够提高map的并行度。划分出来的就是InputSpl...

2019-04-08 11:08:24 556

原创 hdfs损坏block定位以及修复

在HDFS中，提供了fsck命令，用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须由HDFS超级用户来执行，普通用户无权限。可通过hdfs fsck来查看该命令的帮助文档，如下图所示：1.手工修复 hdfs debug1）造一份数据上传到hdfs [hadoop@hadoop001 data]$ hadoop fs -put test.tx...

2019-04-06 15:21:37 6641 2

原创 sqoop安装以及mysql->hive, hive->mysql过程，过程中遇到的问题

sqoop安装1.下载sqoop安装包，解压( http://archive.cloudera.com/cdh5/cdh/5/)挑选与hadoop，hive对应的版本。否则导数据会失败2.拷贝MySQLDriver到sqoop目录的lib目录下(之后还需导入包，在导数据部分说)3.修改sqoop conf目录下sqoop-env.sh文件增加以下内容具体HADOOP_HOME和HIVE...

2019-04-05 22:02:10 230

原创编译Hadoop2.6.0-cdh-5.7.0源码支持五种压缩方式

1.编译环境准备1.先下载源码包hadoop-2.6.0-cdh5.7.0-src.tar.gz，解压后cd进入源码目录下，打开BUILDING.txt，如下图：根据文档，准备编译所用环境，本次所用环境如下：centos6.9jdk1.7(注:该版本hadoop的编译必须使用jdk1.7)maven3.3.9版本Findbugs1.3.9Protocol2.5.0hadoop-2...

2019-04-05 14:21:32 309

原创 git操作

git 实践中遇到的操作1.修改本地branch名后，并提交到远端，发现远端的oldbranch依旧存在。1.修改branch名： 1) git branch -m oldname newname 2) git push --delete origin oldname (origin因人而异 git remote add **origin** git@git..........) ...

2019-03-31 13:38:33 147

原创 Hadoop HA入门笔记(HDFS HA YARN HA)

Hadoop HA（3台）HDFS HANameNodeNameNode(standby)替换了单节点伪分布式的SNNHA中不再有SNN,而是多了一个NN节点(standby)，弥补了SNNcheckpoint的不足NN节点挂了，就不能提供对外服务两个NN节点(实时的,任何时刻只有1台active对外，另外一台是standby 实时备份进行ls cat等操作时，NameNod...

2019-03-29 11:56:54 195

原创 Hadoop入门笔记

**Hadoop HA入门笔记**欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：...

2019-03-28 16:13:54 237

moyuan的博客