Spark and Hadoop碎片知识点

**知识点11:**wholeTextFiles方法主要用于处理XML和JSON等组织方式较为复杂的数据文件,因为这些文件一般需要整体解析,而逐行处理不现实。在实际练习中,可以使用这个方法来处理XML等数据,效果会更好。

顺序序号11:Multi-line Text Elements

**知识点12:**Parallelize方法用于在内存中生成RDD,主要用于测试目的。在实际应用中,不太可能通过代码直接将大量数据加载到RDD中,因为这样会导致代码量庞大,不切实际。

顺序序号12:Creating RDDs from Collestions

**知识点13:**主要讨论了RDD数据的保存方法。具体内容包括:
RDD数据保存可以使用内置的方法,如saveAsTextFile,也可以使用saveAsHadoopFile和saveAsNewHadoopFile方法来支持其他格式,但需要用户自己实现序列化。
对应RDD结果的保存路径需要符合特定规范,如存储在HDFS上需要指定目录,且不能预先存在。
在本地路径下生成结果目录后,可以使用ls命令查看生成的文件,通常会有多个分区文件,分区数量取决于数据分区情况。

顺序序号13:Saving RDDs

**知识点14:**主要介绍了RDD的操作,包括Transformation和Action类别的区分,以及RDD操作的惰性执行特性。Transformation操作在程序运行时不会立即执行,只有遇到Action操作时才会触发执行。

顺序序号14:RDD Operations

**知识点15:**主要介绍了RDD的操作,包括count、first、take、collection、saveAs等操作的说明,以及在Scala和Python中如何进行打印操作。同时强调了RDD的惰性执行特性,以及在进行验证时需要注意触发Action操作。

顺序序号15:RDD Action Operations

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值