实验四 Spark Streaming

实验四 Spark Streaming

1.实验目的

1. 熟悉编写 Spark Streaming 程序处理流数据的方法。

2.实验内容

1. 实时统计贷款金额

        模拟解决贷款金额的实时统计问题。假设某外企客户贷款金额数据如下(json 格式), 第一项是客户名称(“name”),第二项是客户贷款金额(“amount”)。

需要的数据:

{"name":"Emma","amount":35000}

{"name":"Sophia","amount":40000}

{"name":"Joyce","amount":56000}

{"name":"Bob","amount":32000}

{"name":"Tom","amount":42000}

{"name":"Lucy","amount":72000}

{"name":"Jennifer","amount":22000}

{"name":"Marian","amount":91000}

{"name":"Loren","amount":38000}

{"name":"Lorraine","amount":42000}

{"name":"Emma","amount":22000}

{"name":"Jennifer","amount":41000}

{"name":"Emma","amount":45000}

{"name":"Loren","amount":66000}

        销售部为了实时掌握客户贷款信息,现要求研发人员开发一个系统,录入一到多条数据 就能立即计算出每个客户的总贷款金额。

        实现思路: 在生产者窗口将数据录入,利用流处理技术进行处理。由于该技术可以维持不同批次数 据的状态,因此直接在该编程对象上,对用户分组求和即可。

3.实验过程 

代码

#导入

sc = SparkContext(appName="LoanAmountStreaming")
ssc = StreamingContext(sc, 1) 

# 创建输入DStream
lines = ssc.socketTextStream("localhost", 9999) 

# 解析每个JSON对象 提取数据
data = lines.map(json.loads)
customer_amounts = data.map(lambda obj: (obj["name"], obj["amount"]))

# 求和
customer_totals = customer_amounts.reduceByKey(lambda a, b: a + b)

# 打印
customer_totals.pprint()

# 启动StreamingContext
ssc.start()
ssc.awaitTermination()

运行图

 

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

简单点了

谢谢大佬

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值