![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RDD
Deng_huakai
花开自会落
展开
-
RDD算子实现文件统计
要求 给出一个TXT文件,文件包含uri下面对应的访问量。求每个域名下面访问量最大的uri 程序 package www.ruozedata.bigdata.homework import org.apache.spark.{SparkConf, SparkContext} object URIApp { def main(args: Array[String]): Unit = { ...原创 2018-12-20 21:44:51 · 327 阅读 · 0 评论 -
计数器的使用及脏数据的输出
输入文件内容如下: https://segmentfault.com/q/1010000000318379 [2018-1202:00] 50 http://ruozedata.com/teacher.html 201802:00 65 http://ruozedata.com/student.html 201802:00 56 https://www.cnblogs.com/MOBIN/p/53...原创 2019-01-02 10:56:52 · 279 阅读 · 0 评论 -
RDD的五大特性
RDD(Resilient Distributed Dataset) RDD是一个抽象类,它代表的是对不可变的分区元素的集合进行并行操作。 A list of partitions 一个RDD由几个分区构成。它是一个可分区的集合,那么它的好处就体现在,对于之前的普通不能进行分区的集合,数据就只能在一个节点上进行处理,而对于RDD来说,对集合进行分区,那么就可以把集合里面的元素存储在不同机器上处理。...原创 2019-02-02 23:37:56 · 302 阅读 · 0 评论