Spark编程实现简例

哲子带你学编程

于 2023-12-19 16:55:55 发布

阅读量1.1k

点赞数 23

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67250370/article/details/135089000

版权

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的一个样例，供参考。

输入文件A的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件B的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件A和B合并得到的输出文件C的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

（1）已知数据文件A和B均在HDFS上。

（2）结果保存到MySql中，请设计结果表，并完整写出源码。

（3）将所有功能整合的一个客户端程序中。

环境说明

IDEA 2022.2.3

Vmware

Hadoop 2.7.7

Spark 3.1.3

源码

将数据文件上传至hdfs：

@Before

public void init() throws IOException {

Configuration conf = new Configuration();

conf.set("fs.defaultFS", "hdfs://master1:9000");

System.setProperty("HADOOP_USER_NAME", "root");

hdfs = FileSystem.get(conf);

}

@After

public void close() throws IOException {

if (hdfs != null) {

hdfs.close();

}

}

@Test

public void testUploadFileToHDFS() throws IOException {

final String localFilePath = "e:/HDFS/A.txt";

final String hdfsFilePath = "/RDD/output/A.txt";

try (FileSystem hdfs = FileSystem.get(new Configuration())) {

Path src = new Path(localFilePath);

Path dst = new Path(hdfsFilePath);

hdfs.copyFromLocalFile(src, dst);

System.out.println("上传成功");

} catch (IOException e) {

e.printStackTrace();

}

}}

合并：

import org.apache.spark.sql.SparkSession

object Main {

def main(args: Array[String]) {

val spark = SparkSession.builder.appName("MergeAndSaveToMySQL").getOrCreate()

// 读取输入文件A和B，并为每个字段指定别名

val inputA = spark.read.text("/user/your_username/RDD/output/A.txt")

.selectExpr("value as id", "substring(value, 11, 1) as name") // 指定日期和字母字段

val inputB = spark.read.text("/user/your_username/RDD/output/B.txt")

.selectExpr("value as id", "substring(value, 11, 1) as name") // 指定日期和字母字段

// 合并两个数据集

val mergedData = inputA.union(inputB)

// 将结果保存到MySQL中

mergedData.write.format("jdbc")

.option("url", "jdbc:mysql://localhost:3306/myBase")

.option("dbtable", "result")

.option("user", "root")

.option("password", "123456")

.save()

spark.stop()

}

}

object MainClient {

def main(args: Array[String]): Unit = {

MergeAndDeduplicate.main(Array())

}

}

运行结果

哲子带你学编程

关注

23
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Spark编程实现简例

selectExpr("value as id", "substring(value, 11, 1) as name") // 指定日期和字母字段。.selectExpr("value as id", "substring(value, 11, 1) as name") // 指定日期和字母字段。独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件。// 读取输入文件A和B，并为每个字段指定别名。下面是输入文件和输出文件的一个样例，供参考。// 将结果保存到MySQL中。
复制链接

扫一扫

哲子带你学编程 CSDN认证博客专家 CSDN认证企业博客

码龄3年

33: 原创

120万+: 周排名

8万+: 总排名

1万+: 访问

: 等级

662: 积分

221: 粉丝

319: 获赞

12: 评论

273: 收藏

私信

关注

热门文章

最新评论

ForkBase:结合区块链实现高效存储引擎
「已注销」: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
分巧克力--二分法
CSDN-Ada助手: 恭喜您写下了第20篇博客！标题"分巧克力--二分法"听起来非常有趣。您的持续创作精神真令人钦佩。通过这篇博客，您向读者介绍了一种新的方法，用于分割巧克力。这确实是一个独特而实用的主题。在下一步的创作中，我谦虚地建议您可以考虑拓展这个主题，探讨其他应用二分法的领域，或者提供一些与巧克力相关的创意烹饪或美食配对建议。我相信您对这个主题有更多的见解和创意。再次祝贺您，期待您未来更多精彩的博客！
K倍区间的统计
CSDN-Ada助手: 恭喜您撰写了这篇关于K倍区间统计的博客！您的持续创作让我们受益匪浅。或许在下一篇博客中，您可以尝试探讨一下如何在实际应用中应用K倍区间统计，或者对于不同数据集的适用性进行进一步分析。希望您能继续分享您的知识和见解，期待您的下一篇作品！
动态规划-包子凑数
CSDN-Ada助手: 恭喜你撰写完第17篇博客！标题《动态规划-包子凑数》引起了我的兴趣。看起来你对动态规划算法有着深入的理解，并且能够将其应用到实际问题中。这种持续创作的精神非常值得称赞！不过，我想提供一些建议作为你下一步创作的参考。或许你可以尝试在博客中分享一些实际案例，更具体地展示动态规划在包子凑数问题中的应用。此外，你还可以考虑深入探讨其他与动态规划相关的话题，以便为读者提供更多的学习资源。期待看到更多精彩的博客文章！
蓝桥杯时间显示
CSDN-Ada助手: 恭喜你写了第13篇博客！看到你对蓝桥杯时间显示的研究和分享，我感到非常欣慰。希望你可以继续坚持创作，不断提升自己的写作水平，同时也可以多尝试一些其他与蓝桥杯相关的话题，让读者有更多的收获。期待你的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。