- 博客(7)
- 收藏
- 关注
转载 sparkstreaming和kafka集成的两种方式
转载地址: https://blog.csdn.net/weixin_39478115/article/details/78884876
2019-01-09 19:37:10 286
转载 Spark 创建RDD、DataFrame各种情况的默认分区数
转载自董可伦的博文:https://dongkelun.com/2018/08/13/sparkDefaultPartitionNums/
2018-12-17 14:25:31 661
原创 spark的持久化和checkpoint的区别
RDD 可以使用 persist() 方法或 cache() 方法进行持久化 cache 底层调用的是 persist 方法,存储等级为: memory only,persist 的默认存储级别也是 memory only,persist 与 cache 的主要区别是 persist 可以自定义存储级别。哪些 RDD 需要 cache ? 会被重复使用的(但是)不能太大的RDD需要cache,ca...
2018-12-14 22:12:54 884
转载 spark会产生shuffle的算子
去重 def distinct() def distinct(numPartitions: Int) 聚合 def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)] def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)...
2018-12-14 21:30:51 2587
原创 利用sed命令删除一行数据首尾的[]
命令: 删除行首的"[":sed -i ‘s/^[//g’ /root/test.json 删除行尾的"]":sed -i ‘s/]$//g’ /root/test.json 也可以把两条命令和在一起:sed -i ‘/./{s/^[//;s/]$//}’ /root/test.json 但是,此时会出现一个问题,行首的"[“可以去掉,但是行尾的”]"却删不掉,原因如下: linux系统里,每行结...
2018-11-26 16:03:05 1557
原创 HBase整合Hive问题记录
HBase整合Hive问题记录 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org/apache/hadoop/ hbase/HBaseConfiguration 描述:HBase和Hive单独使用均没有问题,但是基于HBase创建Hive表时报错 错误记录 FAILED: ...
2018-11-22 19:20:58 200
原创 JDBC-自定义连接池
【连接池的原理】 在javax.sql.DataSource接口–连接池的接口 功能:初始化多个连接.把多个连接放入到内存中 归还:将连接对象放回到内存中 【自定义连接池】 step1.创建类MyDataSource实现DataSource接口 step2.在JDBCUtils类中创建连接池,获取数据库...
2018-08-29 20:10:12 396
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人