Lxjyh99-CSDN博客

转载 sparkstreaming和kafka集成的两种方式

转载地址： https://blog.csdn.net/weixin_39478115/article/details/78884876

2019-01-09 19:37:10 286

转载 Spark 创建RDD、DataFrame各种情况的默认分区数

转载自董可伦的博文：https://dongkelun.com/2018/08/13/sparkDefaultPartitionNums/

2018-12-17 14:25:31 661

原创 spark的持久化和checkpoint的区别

RDD 可以使用 persist() 方法或 cache() 方法进行持久化 cache 底层调用的是 persist 方法，存储等级为: memory only，persist 的默认存储级别也是 memory only，persist 与 cache 的主要区别是 persist 可以自定义存储级别。哪些 RDD 需要 cache ？会被重复使用的(但是)不能太大的RDD需要cache，ca...

2018-12-14 22:12:54 884

转载 spark会产生shuffle的算子

去重 def distinct() def distinct(numPartitions: Int) 聚合 def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)] def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)...

2018-12-14 21:30:51 2587

原创利用sed命令删除一行数据首尾的[]

命令：删除行首的"["：sed -i ‘s/^[//g’ /root/test.json 删除行尾的"]"：sed -i ‘s/]$//g’ /root/test.json 也可以把两条命令和在一起：sed -i ‘/./{s/^[//;s/]$//}’ /root/test.json 但是，此时会出现一个问题，行首的"[“可以去掉，但是行尾的”]"却删不掉，原因如下： linux系统里，每行结...

2018-11-26 16:03:05 1557

原创 HBase整合Hive问题记录

HBase整合Hive问题记录 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org/apache/hadoop/ hbase/HBaseConfiguration 描述：HBase和Hive单独使用均没有问题，但是基于HBase创建Hive表时报错错误记录 FAILED: ...

2018-11-22 19:20:58 200

原创 JDBC-自定义连接池

【连接池的原理】在javax.sql.DataSource接口–连接池的接口功能：初始化多个连接.把多个连接放入到内存中归还：将连接对象放回到内存中【自定义连接池】 step1.创建类MyDataSource实现DataSource接口 step2.在JDBCUtils类中创建连接池，获取数据库...

2018-08-29 20:10:12 396

Lxjyh99的博客