一点传统代码思维和大数据代码思维感悟

传统代码统计单词数量
  1. 读入文本,使用 BufferedReader, FileReader,按行存入 List
  2. 针对每一行,按空格做切割,并使用 Map,key 记录为单词,value 记录为数量,并且,检查 map 是否已经包含这个 key,如果包含,则将 value 增加 1
  3. 输出 map 的 key,和 value,得到单词数量
Spark RDD 代码统计单词数量
  1. 读入文本,使用 textFile
  2. 做 flatMap 操作,单词拆成独立的元素;做 pair 操作,单词组成键值对,初始值为 1;做 reduceByKey 操作,合并同类单词,并实现数量相加
  3. 做 foreach 操作,输出单词数量

我们发现,传统代码在进行操作时,比较依赖程序员的经验,可以按照上面的方式,也可以仿照 RDD 方式,比如第二步,可以把所有单词存入一个 List,然后再遍历 List,用 Map 来计数

但是 RDD 的每一步转换,都向着终点迈进,它是类似 Map Reduce 这样的模式来进行的,每一步就像一个 DAG 的节点,完成一个工作流程,更加适合集群计算

如果习惯了传统方式开发代码,要转变到 RDD 方式开发,需要有一个转变适应的过程。最好一开始就采用画图的方式来帮助分析结果的达成。

另外,不得不提一句的是,初学者使用 Java 来学习 Spark,更能有助于理解 transformation 操作,因为 Java 对类型的强要求,能够看到每一步的参数类型表示什么意思。如果一开始使用 Python 或者 Scala,反而容易迷糊。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值