Spark
iRich_全栈
这个作者很懒,什么都没留下…
展开
-
spark几个重要的概念区分
1、RDD和DStream的区别 RDD: 弹性数据集,其中包含了多个partition,每个子集partition可以分布在不同节点上,在进行处理时分别在不同机器上进行处理; DStream: 对数据流按时间切分出来的一小批次,每个DStream对应多个RDD,这些RDD是按照时间维度进行划分的, 关系:相当于一整条数据流DStream被切分成了多个RDD,每个DStream对...原创 2018-04-03 21:56:58 · 13755 阅读 · 0 评论 -
spark写数据到Mysql
1、使用c3p0 这个主要是因为c3p0实现了序列化,这样就可以直接传输到Worker上 ComboPooledDataSource 这个类主要是用来做生成数据库连接实例的,让它传到Worker上就可以直接使用了 2、业务代码 获取datasource def getC3p0DateSource(filename:String,config:String): Combo...原创 2018-04-03 22:53:20 · 12989 阅读 · 0 评论