2019年10月_顾国玉

11月 10月 09月 08月 07月 06月 01月

原创 CDH5.16.1采用rpm+http方式离线部署（图解详细流程）

文章目录机器准备一节点初始化1.1 设置所有节点的hosts文件1.2 关闭防火墙和清空规则1.3 关闭所有节点的selinux1.4 设置所有节点的时区1.5 时钟同步1.5.1 选取hadoop001为ntp主节点1.5.2 从节点同步1.5.3 添加定时任务二 jdk部署2.1 jdk版本选择三 MySQL 安装四元数据+用户+jdbc包五 CM部署5.1 安装Server5.2 安装A...

2019-10-31 12:07:08 2606

原创 CDH5.16.1邮箱预警设置

我们要通过126邮箱发送到qq邮箱一开启126授权码二设置CDH点击Alert Publisher配置相关信息设置465端口三测试点击Alerts-> Send Test Alert测试结果如下...

2019-10-25 16:30:48 528

原创 CDH5.16.1安装Spark2.x,简称CDS安装（图解官网安装）

CDH的官网都写的很详细，我们要学会看官网的步骤去安装，是最权威的文章目录一找到Spark在哪里二安装CDS2.1 安装Service Descriptor步骤a步骤b步骤c步骤d2.2 添加包裹仓库(parcel repository)2.3 CMS配置Parcel URL2.4 下载，分发，激活2.5 添加Spark2 服务一找到Spark在哪里官网的文档地址：https://do...

2019-10-25 13:44:36 1451 1

原创 CDH安装Kafka, 简称CDK安装（图解安装）

文章目录一下载包裹文件二安装httpd三对parcel进行分发和激活四添加服务五测试数据一下载包裹文件http://archive.cloudera.com/kafka/parcels/4.1.0/创建下载的目录，并cd进去mkdir kafka_parcelcd kafka_parcel下载三个文件wget http://archive.cloudera.com/k...

2019-10-24 14:42:41 4687

原创解决spark on yarn每次都传递一堆jars的问题

问题复现spark-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.homework.standby.JDBCApp \--jars /home/hadoop/lib/mysql-connector-java-5.1.47.jar,/home/hadoop/lib/config-1.2.1.jar \-...

2019-10-19 23:22:40 1947 4

原创 Hadoop支持lzo压缩（版本cdh5.15.1）

参考文章：https://www.iteblog.com/archives/992.htmlhttps://blog.csdn.net/muyingmiao/article/details/102259663https://programmer.group/using-lzo-compression-and-supporting-slicing-for-hadoop.htmlHadoop经...

2019-10-12 16:58:57 673

原创 hive自定义函数后,编译源码,并解决数据倾斜

一下载源码首先进入网站：http://archive.cloudera.com/cdh5/cdh/5/然后搜索hive-1.1.0-cdh5.15.1-src二自定义函数2.1 添加随机数前缀函数解压之后，可以用idea打开工程，然后在目录hive-1.1.0-cdh5.15.1/ql/src/java/org/apache/hadoop/hive/ql/udf下新建一个类UDFA...

2019-10-09 20:34:49 434

原创 Spark的wc过程分析

有如下代码，我们需要做wc统计def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName("my-test") val sc = new SparkContext(sparkConf) val list = sc.para...

2019-10-02 21:33:12 574

原创 Spark中textFile产生了几个RDD

我们可以用toDebugString方法看看产生了几个RDDval rdd = sc.textFile("file:///home/hadoop/data/wc.dat")rdd.toDebugString从下图中可以看出，产生了2个RDD，HadoopRDD和MapPartitionsRDD为什么是两个RDD?我们进入textFile源码中进行查看def textFile( ...

2019-10-02 19:22:34 954

原创 Spark的核心术语

官网地址：http://spark.apache.org/docs/latest/cluster-overview.htmlGlossary术语表标黄色的代表比较重要术语描述Application由driver program和集群上的executors组成Application jar用户创建的spark应用程序。所依赖的jar包在运行时传入Driver...

2019-10-02 18:20:43 251

原创 Spark中排序的几种方式

有如下的数据，我们需要对其进行排序，字段的意思分别为：商品，价格，数量val rdd = sc.parallelize(List("iphone5 1000 20", "iphone6 2000 50","iphone7 2000 100", "iphone11 5000 50"))需求：把商品按照价格升序排序一: 元祖import org.apache.spark.{Spark...

2019-10-02 16:18:36 7273

原创 spark中RDD的五大特性

RDD是什么下面这个是Spark源码中RDD的第一行描述 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel...

2019-10-01 22:50:14 2839

原创 Flume自定义Source、Sink、Interceptor

文章目录一自定义Source1.1 创建MySource1.2 打包上传1.3 配置文件1.4 启动agent1.5 结果展示二自定义Sink2.1 创建MySink2.2 打包上传2.3 配置文件2.4 启动agent三自定义Interceptor3.1 创建MyInterceptor3.2 打包上传3.3 配置文件3.4 启动agent一自定义Source现在我们自己定义一个Sou...

2019-10-01 15:00:36 464