数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(总）

置顶 ZShiJ

已于 2024-05-27 16:17:34 修改

阅读量1.4w

点赞数 100

分类专栏：数据挖掘 Python 文章标签：数据挖掘数据分析

于 2024-02-20 11:00:00 首次发布

本文链接：https://blog.csdn.net/m0_53054984/article/details/136122988

版权

数据挖掘同时被 2 个专栏收录

46 篇文章

订阅专栏

Python

46 篇文章

订阅专栏

🌟欢迎来到 我的博客 —— 探索技术的无限可能！

🌟博客的简介（文章目录）

本文使用工具
Anaconda下载安装与使用
 Jupyter Notebook的使用

文章：
   数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一）
   数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(二）
   数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(总）
   数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(续）
代码：
   数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(代码部分）

（一）问题定义（明确你要解决的问题或目标。确定你希望从数据中获得什么类型的信息，以及如何将其应用于实际场景。）

①项目选题与背景

本项目实现抖音用户浏览行为数据分析与挖掘。抖音是一款流行的短视频平台，用户在使用抖音时会产生大量的浏览行为数据，包括用户的观看视频、点赞、评论、分享等行为。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行分析和挖掘，以获得有价值的信息和洞察，并将其应用于实际场景中，如用户个性化推荐、内容优化和广告定向投放等。
在这里插入图片描述

②项目意义

在数据挖掘的背景下，抖音用户浏览行为数据分析与挖掘具有重要的意义，对抖音用户浏览行为进行数据分析与挖掘，可以了解用户的兴趣和偏好，优化用户体验，提高内容的质量和吸引力，同时也可以为广告商提供更准确的定向投放服务，实现数据驱动的运营决策。

③项目需要解决的问题或目标

A.用户兴趣和喜好分析：通过分析抖音用户的浏览行为数据，了解用户对不同类型内容的偏好和兴趣。这可以帮助平台更好地了解用户需求，优化推荐算法，提供个性化的内容推荐，增加用户留存和活跃度。

B.内容优化和创新：通过数据挖掘，识别和分析受欢迎的内容类型、创意和趋势。这可以为内容创作者和平台运营者提供指导，优化现有内容，改进内容质量，吸引更多用户参与，并发现新的创意和趋势。

C.广告定向投放：利用用户浏览行为数据，了解用户的兴趣和偏好，为广告商提供精准的广告定向投放。通过分析用户行为模式，识别潜在的目标用户群体，并根据他们的兴趣和行为特征，将广告推送给最相关的用户，提高广告投放效果和转化率。

D.运营决策和业务优化：通过数据挖掘和分析，了解用户行为的变化趋势、活跃度和留存率等指标。这可以为抖音平台的运营决策提供依据，优化平台的功能设计、内容策略、资源分配和运营活动等，提升用户体验和平台的竞争力。

E.用户群体分析：利用用户浏览行为数据，对用户进行群体分析，识别不同用户群体的特征、行为模式和偏好。这可以帮助平台了解用户群体的多样性，为不同用户提供定制化的内容和服务，满足他们的个性化需求。

④从数据中获得什么类型的信息，以及如何将其应用于实际场景

从抖音用户浏览行为数据中希望获得的类型信息包括用户兴趣和喜好、内容类型和创意趋势、广告定向投放指导、用户行为指标和用户群体特征。这些信息可以应用于实际场景，包括个性化推荐算法的改进、内容创作和运营策略的优化、广告投放的精准定向、平台功能设计的优化和用户体验的提升。

（二）数据收集

首先，需要获取抖音用户的浏览行为的相关数据集，包括用户的观看记录、点赞记录、评论记录、分享记录等。这可以从数据库中提取数据、采集网络数据、使用API 访问数据源或与合作伙伴合作获得数据，也可以通过与抖音平台合作获得用户数据，使用API访问数据接口或其他合法的数据收集手段来实现。

①熟悉数据，查看数据结构和数据分布情况

数据集说明

字段名	解释	字段名	解释	字段名	解释
uid	用户id	user_city	用户城市	item_id	作品id
author_id	作者id	item_city	作者城市	channel	作品频道
finish	是否看完	like	是否点赞	music_id	音乐id
duration_time	作品时长	real_time	具体发布时间	H、date	时、天(发布)

数据集下载：抖音用户浏览行为数据集

②导入必要的Python Packages

首先导入需要的python包，其中包括NumPy、Pandas，导入这些包能够使用相应库和模块的函数、类和方法来处理和分析数据、进行机器学习模型的训练和评估。
在这里插入图片描述

③读入数据Read-In Data

加载并存储"douyin_dataset(1).csv“到一个名为"df"的DataFrame中，使用head()方法显示DataFrame的前几行数据。
在这里插入图片描述

④使用info（）函数查看数据类型展示及缺失值分析，该数据集共有 1737312 条记录，包含 13 个字段，每个字段的非空值数量均为 1737312。其中，前 10 列是数值型变量（包括整型和浮点型），后两列是字符串型变量。数据集占用的内存大小为 172.3 MB

在这里插入图片描述

（三）数据预处理

在进行数据挖掘之前，我们需要对数据进行预处理和清洗，以确保数据的质量和一致性。

1) 数据去重

在这里插入图片描述

无重复数据

2) 缺失值查看

在这里插入图片描述

无缺失值

3) 变量类型转换

在这里插入图片描述

real_time 和 date 转为时间变量

在这里插入图片描述

id、城市编码转为字符串，并把小数点去掉

（四）特征指标构建——统计分析（分类）

根据问题的需求和数据的特点，进行特征选择、提取和转换。例如，可以从用户的浏览行为数据中提取特征，如观看时长、点赞数、评论数、分享数等，或者通过文本挖掘技术提取用户的评论内容特征，可以包括对原始特征进行数值化、编码分类变量、创建新特征等操作。

①用户特征统计分析

站在用户的角度，涉及到浏览量，点赞量，浏览的作品、作者、BGM的总数等
在这里插入图片描述

②作者特征统计分析

站在作者的角度，涉及到总浏览量，总点赞量等
在这里插入图片描述

③作品特征统计分析

站在作品的角度，简单分析
在这里插入图片描述

（五）可视化分析

可视化：可以通过line_chart绘制曲线图，pie_chart绘制饼图，fl_chart绘制折线图。

ps：pyecharts是Python中一个数据可视化库，可以用于生成种类型的图表。打开命令行窗口，输入以下命令来安装pyecharts：

python pip install pyecharts

绘图函数封装

line_chart绘制曲线图
pie_chart绘制饼图
fl_chart绘制折线图

①用户特征可视化分析

特征数据统计

在这里插入图片描述

用户浏览情况

在这里插入图片描述

绘制浏览量分布曲线：

按照浏览量从大到小将用户排序
依次计算前n个用户的浏览量之和占所有用户浏览量的比例
将人数n和前n人浏览量之和占总体比例绘制为图像

在这里插入图片描述

用户点赞情况
按照点赞量从大到小排序并求和，绘制曲线

在这里插入图片描述

用户完整观看情况

在这里插入图片描述

用户观看作品的平均完整时长分布

在这里插入图片描述

用户去过的城市数分布

在这里插入图片描述

②作者特征可视化分析

特征数据统计

1. 特征数据统计

作者浏览情况

在这里插入图片描述

作者点赞情况

在这里插入图片描述

作者去过的城市数

在这里插入图片描述

③作品特征可视化分析

特征数据统计

在这里插入图片描述

作品各日发布情况

在这里插入图片描述

作品浏览量情况

在这里插入图片描述

作品点量率情况

在这里插入图片描述

（六）模型选择与建立——聚类分析，关联规则

针对抖音用户浏览行为数据，我们可以选择使用各种适应的数据挖掘模型或算法，如关联规则挖掘、聚类分析、分类模型等。根据具体的问题和数据特点，选择合适的模型并进行训练和优化。

（1）聚类分析

聚类方法是一种将数据对象分组或聚集成具有相似特征的类别或簇的技术。聚类分析是无监督学习的一种常用方法，它不依赖于预先定义的类别标签，而是根据数据对象之间的相似性或距离度量来进行分组。

常见的聚类方法：
A.K均值聚类：将数据对象划分为K个簇，每个簇代表一个聚类中心，通过最小化数据对象与聚类中心之间的距离来进行优化。

B.层次聚类：基于不同的聚类合并或分裂策略，通过构建聚类树或聚类层次结构来划分数据对象。

C.密度聚类：通过密度可达性和密度相连性来识别高密度区域，将数据对象划分为簇。

D.谱聚类：通过数据对象之间的相似性矩阵或图表示，将数据对象划分为簇。

E.DBSCAN聚类：通过定义邻域半径和最小密度阈值，将数据对象划分为核心对象、边界对象和噪声对象。
在这里插入图片描述

针对用户和作者的数据特征，使用k-means聚类算法量化的将两个群体进行分类：

A.导入用于聚类分析的相关库和函数
在这里插入图片描述

B. 确保计算机上已安装Python和pip，并且已经配置好了正确的环境。
在这里插入图片描述

C.使用pd.read_csv()函数读取用户特征、作者特征的CSV文件
在这里插入图片描述

D.基于用户特征数据筛选出满足条件的用户数据，计算满足条件的用户数据占总用户数据的比例

用户聚类可以服务于平台对用户分级，探索性的分析用户特点，但在数据可视化分析中，可以看到有一部分用户使用程度平台低，浏览少，不点赞，对这样的用户进行聚类分析是无效多余的，增加筛选认为至少观看过一个完整短视频且有一定浏览量的用户才具有分析意义。
在这里插入图片描述

E. 基于作者特征数据筛选出满足条件的作者数据，计算满足条件的作者数据

总作者数据的比例

而在对作者的考量上，聚类的结果是服务于商务合作和广告投放，此时核心是浏览量，而大部分的作者总浏览量非常小，这些作者是无需考虑的，故进行筛选。
在这里插入图片描述

F. 定义K-means聚类算法的函数km

在函数内部，通过循环遍历K值的范围，

①初始化KMeans模型并进行聚类。

②预测数据的聚类结果。

③计算模型的评估指标，包括轮廓系数和SSE（Sum of Squared Errors）。

④保存聚类模型。

⑤存储评估指标。

⑥打印聚类计算完成的消息。

⑦保存评估指标，并返回存储了每个K值对应的轮廓系数和SSE的字典。

在这里插入图片描述

G. 定义绘制聚类效果图的函数draw（sse和sc曲线）

①创建一个Line图表对象，并设置图表的初始化选项，包括主题、宽度和高度。

②使用.add_xaxis()方法将K值作为X轴数据添加到图表中。

③使用.add_yaxis()方法分别将SSE和轮廓系数作为两条线的Y轴数据添加到图表中，并通过yaxis_index参数指定它们在不同的Y轴上。

④使用.extend_axis()方法添加一个额外的Y轴。

⑤使用.set_global_opts()方法设置图表的全局选项，包括标题、X轴和Y轴的选项。

⑥返回创建的图表对象。
在这里插入图片描述

H. 根据给定的用户数据进行聚类

①模型训练与保存：根据给定的用户数据进行聚类，并将聚类结果保存在user_score中
在这里插入图片描述

②聚类k值选择——通过综合肘部法则和sc值，选择作为用户聚类模型

在这里插入图片描述

③聚类结果

在这里插入图片描述

I. 根据给定的作者数据进行聚类

①模型训练与保存：根据给定的作者数据进行聚类，并将聚类结果保存在user_score中
在这里插入图片描述

②聚类k值选择——通过综合肘部法则和sc值，选择作为用户聚类模型
在这里插入图片描述

③聚类结果
在这里插入图片描述

聚类的结果解释性较为明显，其核心与浏览量相关，提供了一定数据特征下的量化分类作用。

（2）关联规则

A.根据 用户特征 的CSV文件使用Apriori算法进行关联规则挖掘并输出关联规则、置信度和支持度。

①确保已经安装了pandas和mlxtend库，并且已经将用户特征.CSV文件保存在Jupyter Notebook。
在这里插入图片描述

在这里插入图片描述

②使用pd.read_csv()函数读取作者特征的CSV文件
在这里插入图片描述

③对数据进行预处理，使用独热编码将数据转换为适用于关联规则挖掘的形式。
在这里插入图片描述

使用Pandas中的applymap()函数对user_df DataFrame进行转换，对每个元素进行操作。该lambda函数的逻辑是，如果元素大于0，则将其赋值为1，否则赋值为0。

④使用Apriori算法挖掘频繁项集，设置适当的min_support参数来控制最小支持度的阈值
在这里插入图片描述

⑤使用循环遍历rules的每一行，并输出满足条件的关联规则、支持度和置信度。
在这里插入图片描述

B. 根据 作者特征的 CSV文件使用Apriori算法进行关联规则挖掘并输出关联规则、置信度和支持度。
在这里插入图片描述

C. 根据 作品特征 的CSV文件使用Apriori算法进行关联规则挖掘并输出关联规则、置信度和支持度。

在这里插入图片描述

（七）模型评估与调优——二分类预测（浏览行为中的点赞预测）

导入必要的python软件包和模块
数据类型展示

在这里插入图片描述

读取数据，并保留用户特征、作品特征和是否点赞，其余无效字段如channel(不确定)，finish(没有浏览行为时不存在)， H、date（real_time中包括）。

数据抽样处理

为了减少训练成本，对数据集中的数据进行抽样训练通过等距抽样获取部分浏览信息作为训练数据（需要同时保证点赞数据的合理比例）。

时间数据处理

训练数据中的real_time字段包括的是字符串对象对应代表时间值，通过将其转化为与固定时间的差值(秒)来进行数值化。
在这里插入图片描述

数据集划分
模型训练函数
模型训练
绘制模型AUC曲线

在这里插入图片描述

综合准确率和AUC值表现，模型的效果不是很好，在数据抽样时扩大抽样规模会有效的提高auc值，同时点赞和不点赞的数据分布较为不均衡也是重要原因这里只做继续方法的演示，相对来说随机森林的效果比较好，所以选择随机森林作为二分类模型。

优化

n_e优化

在这里插入图片描述

原本是一系列机器学习模型的训练和评估过程，包括逻辑回归（Logistic Regression）、朴素贝叶斯（Gaussian Naive Bayes）、单棵决策树（Decision Tree Classifier）和随机森林（Random Forest Classifier）。每个模型都是独立训练和评估的，没有进行参数优化。

而n_e优化专注于随机森林分类器，并使用网格搜索（GridSearchCV）来寻找最佳的n_estimators参数。这是一个超参数优化的过程，通过尝试不同的n_estimators值来找到在给定数据集上表现最好的随机森林模型。使用了交叉验证（3折）和ROC AUC作为评分标准。

总结一下，两者的主要区别：

模型选择与优化：
- 原本是对四个不同的模型进行了训练和评估，但没有进行参数优化。
- n_e优化只关注随机森林模型，并通过网格搜索进行了参数优化。
参数优化：
- 原本使用了默认参数或者手动设置的参数来训练模型。
- n_e优化使用网格搜索来自动寻找最佳的n_estimators参数。
评估方法：
- 原本使用模型的score方法来评估测试集上的准确率。
- n_e优化使用交叉验证和ROC AUC评分来评估模型的性能。
计算资源：
- 原本对每个模型单独训练和评估，相对较快。
- n_e优化使用了网格搜索，这通常需要更多的计算资源和时间，因为它需要训练和评估多个模型。

max_f优化

原本是一系列机器学习模型的训练和评估过程，包括逻辑回归（Logistic Regression）、朴素贝叶斯（Gaussian Naive Bayes）、单棵决策树（Decision Tree Classifier）和随机森林（Random Forest Classifier）。每个模型都是独立训练和评估的，没有进行参数优化。

max_f优化专注于随机森林分类器，并使用网格搜索（GridSearchCV）来寻找最佳的max_features参数。这是一个超参数优化的过程，它通过尝试不同的max_features值来找到在给定数据集上表现最好的随机森林模型。这个过程使用了交叉验证（3折）和ROC AUC作为评分标准。

总结一下，两者的主要区别：

模型选择与优化：
- 原本是对四个不同的模型进行了训练和评估，但没有进行参数优化。
- max_f优化只关注随机森林模型，并通过网格搜索进行了参数优化。
参数优化：
- 原本使用了默认参数或者手动设置的参数来训练模型。
- max_f优化使用网格搜索来自动寻找最佳的max_features参数。
评估方法：
- 原本使用模型的score方法来评估测试集上的准确率。
- max_f优化使用交叉验证和ROC AUC评分来评估模型的性能。
计算资源：
- 原本对每个模型单独训练和评估，相对较快。
- max_f优化使用了网格搜索，这通常需要更多的计算资源和时间，因为它需要训练和评估多个模型。
并行处理：
- 在两个代码段中，n_jobs=-1都用于指示尽可能使用多的核心进行并行处理，以加速计算过程。

模型训练

在这里插入图片描述

虽然整体的效果不行，auc值比较低，但是可以看到有优化提升。

如果我们要比较不同模型的性能，那么原本是合适的。但我们想要找到随机森林模型的最佳参数，那么使用网格搜索是更好的选择。

模型准确率

在这里插入图片描述

转换一下df中的时间，看看使用2.5%左右的数据训练出来的模型准确率能有多少。
在这里插入图片描述

预测点赞的模型准确率为99.6。
在这里插入图片描述

在这里插入图片描述

即使预测不点赞，模型准确率也高达99.3。

（八）结果解释与应用

该模型结果显示，通过对用户、作者和作品等主体的特征描述和数据分析方法的应用，可以服务于业务优化等目的。如下图所示。
在这里插入图片描述

该模型可以应用于对用户价值进行判定，比如第一类用户的浏览量、点赞、完播率都不怎么高，这类用户更多会关注到视频前半段的内容，兴趣点可通过停留时间进行判断，但使用时间相对较长，反映产品依赖性，一定程度上来说算是核心用户。可以利用停留时间判断喜好，优化推荐算法，重点推荐前半段内容吸引力大的。
在这里插入图片描述