pyspark 获取本地数据文件_使用 Python+PySpark 做用户画像

最新推荐文章于 2024-06-26 20:48:19 发布

袁mx

最新推荐文章于 2024-06-26 20:48:19 发布

阅读量665

点赞数

文章标签： pyspark 获取本地数据文件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42319396/article/details/113312423

版权

本文通过PySpark对用户行为数据进行处理，计算用户点击率并生成用户标签。首先，从本地文件读取action.txt和document.txt，然后统计用户点击行为，计算点击率，并将结果保存到本地。接着，基于用户点击行为和文档主题为用户打标签，同样保存结果。在处理过程中注意避免增加不必要的计算负担。

摘要由CSDN通过智能技术生成

一、数据准备

本文主要是作为一个PySpark的入手实例来做，数据来源网络。主要用到两个数据文件：action.txt，document.txt。下表为action.txt，数据格式：userid~docid~behaivor~time~ip，即：用户编码~文档编码~行为~日期~IP地址

下表为document.txt，数据格式：docid~channelname~source~keyword:score，即：文档编码~类别(大类)~主题(细类)~关键词：权重

二、用户点击率

用户点击率即为action.txt文件中每个用户behaivor列中1的数量除以0的数量。

1、创建SparkSession对象

2、读取数据，将数据根据‘~’拆分，获取userid和behavior两列

click_rate1数据如下：

3、统计用户的各类行为数

click_rate2数据如下：

4、将userid,behavior和数量取出作为3列，并转为DataFrame格式

click_rate3_df数据如下：

5、根据userId进行分组，将behavior列数据进行旋转作为列标数值为cnt。并将behavior的0和1替换为“browse”和”click”。

click_rate5数据如下：

6、填充缺失值

click_rate6数据如下：

7、将计算的数据作为新列添加到数据

click_rate数据如下：

8、将最后处理的数据保存到本地，关闭SparkSession

最后保存到本地的数据为多个文件，每个文件的格式如下：

三、用户标签

使用主题(细类)给用户打标签

1、读取docunment.txt，获取docid、source两列，即文档编码和主题(细类)两列

sources_df数据如下：

2、读取action.txt，只获取具有点击行为的userid和docid数据，即behavior为1的数据。

actions_df数据如下：

3、创建两个DataFrame的临时视图

4、进行关联查询

interestTags数据如下：

5、将最后处理的数据保存到本地，关闭SparkSession

导出后的数据如下：

踩雷点：

1、代码开发时，可以每个操作跟一个action，方便查看数据，跑批的时候不需要每个都跟，只需要最后一个action，否则会给机器增加很多工作量。

2、中间过程生成的DataFrame必须先建立临时视图，后面才能使用，否则会报错

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pyspark 获取本地数据文件_使用 Python+PySpark 做用户画像

一、数据准备本文主要是作为一个PySpark的入手实例来做，数据来源网络。主要用到两个数据文件：action.txt，document.txt。下表为action.txt，数据格式：userid~docid~behaivor~time~ip，即：用户编码~文档编码~行为~日期~IP地址下表为document.txt，数据格式：docid~channelname~source~keyword:sco...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。