最简单逐行读取hdfs文件

最新推荐文章于 2022-09-30 19:49:17 发布

我先森

最新推荐文章于 2022-09-30 19:49:17 发布

阅读量2k

点赞数

文章标签： spark hdfs hadoop

转载需注明

本文链接：https://blog.csdn.net/qq_36066039/article/details/81003055

版权

val arrayRdd = spark.sparkContext.textFile("/dmLink/domain/").collect()
for(myDomain <- arrayRdd){
  println("*********************************" + myDomain)
  })

 如果你看到这里还想用java来写的话，你这是在钻牛角尖，
希望了解一些scala，因为在大数据领域，java和它不能比。scala生来处理大数据。

没错就这些代码就搞定了，由此可见spark的强大能力，你不需要用java构建读取流，不仅代码多而且容易出错，看我上面的代码多简单！ spark读取的时候会有sparkrdd 和sparkDataframe 两种形式，前者是针对具体的数据，所以逐行就是用的rdd,后者是将数据抽象为表格的形式所以不符合你的要求。

学spark 多看看map mapPartion() spark是链条式的处理对于一条数据你可以在map里面转化成对象，也可以对某个字段进行你想要的逻辑处理，然后到下一个map，一直的流动，可以说很简单，在数据处理方便它得天独厚，目前来说还没有可以和它相提并论的东西。

希望spark的机器学习库能够增加深度学习的框架，啊啊。python对机器学习的资料资源很多，scala还是少了点。说实话scala确实很不错，但是和python相比确实难了点，增加学习难度。但是性能的话scala确实很好，毕竟在java的基础上做了很多的改进。就目前来说scala开发工程师在我国还是有些小众的，但是在美国scala开发者薪酬很高。一些学习java的学起来scala都难受，尤其是它对于继承什么的增加了一些小细节。但是scala在很多方便比java方便。比如java无法switch case 类，但是scala 模式匹配是可以的。大家自己感受吧！有什么为题可以留言给我。（2019-0-16）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

我先森 CSDN认证博客专家 CSDN认证企业博客

码龄8年

212: 原创

3万+: 周排名

8972: 总排名

31万+: 访问

: 等级

3866: 积分

594: 粉丝

353: 获赞

110: 评论

653: 收藏

私信

关注

热门文章

分类专栏

es 付费 25篇
Flink实战经验 11篇
SQL 2篇
前后端 1篇
Django 从零到1 6篇
Flink从无到有 32篇
spark 7篇
mysql 1篇
log4j2 使用经验 1篇
hive 1篇
springboot 5篇
玩转海量数据 8篇
时间戳 1篇
elasticsearch免费 1篇
scala 9篇
java 37篇
kafka 4篇
python 实战记录 32篇
shell 14篇
linux 3篇
AI 3篇
数据结构 7篇

最新评论

33.python socket
我先森: 稍微有点难，很多工作七八年的程序员也不清楚这些东西。
【实战-01】flink cdc 实时数据同步利器
我先森: 底层是不是集成了datax
24. python使用上下文管理器
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
4. python 导入自定义的包
CSDN-Ada助手: 如何将自己的Python项目发布到PyPI?
22. python如何更改logging模块的数据传输通道
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我先森 鼓励一个吧，哈哈

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。