0基础就可以上手的Spark脚本开发-for Java

最新推荐文章于 2022-10-23 16:16:53 发布

虚幻私塾

最新推荐文章于 2022-10-23 16:16:53 发布

阅读量524

点赞数

分类专栏： python 文章标签： spark java flask 计算机

本文链接：https://blog.csdn.net/u013190417/article/details/125818497

版权

本文介绍了作者如何从零开始学习Spark以处理大规模Hive数据，通过了解Spark的基本概念、选择Spark的原因以及核心数据结构RDD，最终实现用Java编写Spark脚本将数据导出到MySQL的过程。文章包含一个简单的SparkSession和RDD操作示例。

摘要由CSDN通过智能技术生成

🚀 优质资源分享 🚀

学习路线指引（点击解锁）	知识定位	人群定位
🧡 Python实战微信订餐小程序 🧡	进阶级	本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。
💛Python量化交易实战💛	入门级	手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

前言

最近由于工作需要，要分析大几百G的Nginx日志数据。之前也有过类似的需求，但那个时候数据量不多。一次只有几百兆，或者几个G。因为数据都在Hive里面，当时的做法是：把数据从Hive导到MySQL，然后写代码查询MySQL并处理。如果你的处理逻辑比较简单，或只是查询统计，不会设计上游的服务调用，也可以直接写Hive SQL。

上面的做法在面对少量数据时还可以应付，对于大量数据就很不可取了。从Hive导数据到MySQL，光这一步就够呛，就更别说自己写的Java脚本效率性能如何了。请教同事过后，告诉我可以用Spark，并潇洒地丢给我一个Spark-Demo的jar包。之前只接触过HDFS和Hive，Spark只听说过，也准备学，但一直没时间。这下好了，有了带薪学习的机会。其实照着同事给我的jar包，照葫芦画瓢也能写出来，但是很多API都非常陌生，写出来的代码自己也不放心，所以还是有必要学学Spark的。

不过从头开始，完整学一遍Spark的话，时间肯定不够。当时接需求时，虽然知道自己不会，但是还挺相信自己的学习能力的，承诺了开发时间。所以我们的目标就是——用Spark处理Hive里面的数据，并把结果输出到MySQL中。

学习一个新知识的正常路径是：了解产生背景、了解整体架构、分模块学习功能和了解API、实战、深入学习原理和优化。由于这次目的性很强，在第三步时，只用学习跟本次需求相关的模块即可，然后就可以实战了。先从以下两个问题入手，初步了解Spark。