Spark
时间蜗牛
这个作者很懒,什么都没留下…
展开
-
Spark中的RDD以及分区
Spark中的RDD以及分区RDD 在spark中,最重要的概念就是RDD,它本质上是一个数据的引用,可以把它理解为C语言中的指针,即RDD本身是不存储数据的,但是通过操作RDD,我们就可以直接操作保存在分布式系统中的数据。所以RDD是存储在系统中数据的一个代理。 在上面的图片中,我们可以看到...原创 2019-10-06 21:00:54 · 924 阅读 · 0 评论 -
在scala中使用JdbcRDD时遇到的序列化问题
在scala中使用JdbcRDD时遇到的序列化问题在scala中初始化一个JdbcRDD时,我们需要传递如下几个参数。val sql = "select * from Topic where TopicId >= ? and TopicId <= ?" val minId = 0 val maxId = 1000000 val numPartitions =...原创 2019-10-08 19:46:26 · 283 阅读 · 0 评论