- 博客(13)
- 资源 (8)
- 收藏
- 关注
原创 CDH5.16.1采用rpm+http方式离线部署(图解详细流程)
文章目录机器准备一 节点初始化1.1 设置所有节点的hosts文件1.2 关闭防火墙和清空规则1.3 关闭所有节点的selinux1.4 设置所有节点的时区1.5 时钟同步1.5.1 选取hadoop001为ntp主节点1.5.2 从节点同步1.5.3 添加定时任务二 jdk部署2.1 jdk版本选择三 MySQL 安装四 元数据+用户+jdbc包五 CM部署5.1 安装Server5.2 安装A...
2019-10-31 12:07:08 2606
原创 CDH5.16.1邮箱预警设置
我们要通过126邮箱发送到qq邮箱一 开启126授权码二设置CDH点击Alert Publisher配置相关信息设置465端口三 测试点击Alerts-> Send Test Alert测试结果如下...
2019-10-25 16:30:48 528
原创 CDH5.16.1安装Spark2.x,简称CDS安装(图解官网安装)
CDH的官网都写的很详细,我们要学会看官网的步骤去安装,是最权威的文章目录一 找到Spark在哪里二 安装CDS2.1 安装Service Descriptor步骤a步骤b步骤c步骤d2.2 添加包裹仓库(parcel repository)2.3 CMS配置Parcel URL2.4 下载,分发,激活2.5 添加Spark2 服务一 找到Spark在哪里官网的文档地址:https://do...
2019-10-25 13:44:36 1451 1
原创 CDH安装Kafka, 简称CDK安装(图解安装)
文章目录一 下载包裹文件二 安装httpd三 对parcel进行分发和激活四 添加服务五 测试数据一 下载包裹文件http://archive.cloudera.com/kafka/parcels/4.1.0/创建下载的目录,并cd进去mkdir kafka_parcelcd kafka_parcel下载三个文件wget http://archive.cloudera.com/k...
2019-10-24 14:42:41 4687
原创 解决spark on yarn每次都传递一堆jars的问题
问题复现spark-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.homework.standby.JDBCApp \--jars /home/hadoop/lib/mysql-connector-java-5.1.47.jar,/home/hadoop/lib/config-1.2.1.jar \-...
2019-10-19 23:22:40 1947 4
原创 Hadoop支持lzo压缩(版本cdh5.15.1)
参考文章:https://www.iteblog.com/archives/992.htmlhttps://blog.csdn.net/muyingmiao/article/details/102259663https://programmer.group/using-lzo-compression-and-supporting-slicing-for-hadoop.htmlHadoop经...
2019-10-12 16:58:57 673
原创 hive自定义函数后,编译源码,并解决数据倾斜
一 下载源码首先进入网站:http://archive.cloudera.com/cdh5/cdh/5/然后搜索hive-1.1.0-cdh5.15.1-src二 自定义函数2.1 添加随机数前缀函数解压之后,可以用idea打开工程,然后在目录hive-1.1.0-cdh5.15.1/ql/src/java/org/apache/hadoop/hive/ql/udf下新建一个类UDFA...
2019-10-09 20:34:49 434
原创 Spark的wc过程分析
有如下代码,我们需要做wc统计def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName("my-test") val sc = new SparkContext(sparkConf) val list = sc.para...
2019-10-02 21:33:12 574
原创 Spark中textFile产生了几个RDD
我们可以用toDebugString方法看看产生了几个RDDval rdd = sc.textFile("file:///home/hadoop/data/wc.dat")rdd.toDebugString从下图中可以看出,产生了2个RDD,HadoopRDD和MapPartitionsRDD为什么是两个RDD?我们进入textFile源码中进行查看def textFile( ...
2019-10-02 19:22:34 954
原创 Spark的核心术语
官网地址:http://spark.apache.org/docs/latest/cluster-overview.htmlGlossary术语表标黄色的代表比较重要术语描述Application由driver program和集群上的executors组成Application jar用户创建的spark应用程序。所依赖的jar包在运行时传入Driver...
2019-10-02 18:20:43 251
原创 Spark中排序的几种方式
有如下的数据,我们需要对其进行排序,字段的意思分别为:商品,价格,数量val rdd = sc.parallelize(List("iphone5 1000 20", "iphone6 2000 50","iphone7 2000 100", "iphone11 5000 50"))需求:把商品按照价格升序排序一: 元祖import org.apache.spark.{Spark...
2019-10-02 16:18:36 7273
原创 spark中RDD的五大特性
RDD是什么下面这个是Spark源码中RDD的第一行描述 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel...
2019-10-01 22:50:14 2839
原创 Flume自定义Source、Sink、Interceptor
文章目录一 自定义Source1.1 创建MySource1.2 打包上传1.3 配置文件1.4 启动agent1.5 结果展示二 自定义Sink2.1 创建MySink2.2 打包上传2.3 配置文件2.4 启动agent三 自定义Interceptor3.1 创建MyInterceptor3.2 打包上传3.3 配置文件3.4 启动agent一 自定义Source现在我们自己定义一个Sou...
2019-10-01 15:00:36 464
自定义dbutils下的MyQueryRunner
2018-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人