近年来,社交媒体平台打造了多元化的线上交流空间和文化圈,深刻影响着人们社交互动与信息获取。博主基于专业知识或兴趣爱好等创作出高质量内容,吸引并获得用户的关注。用户可以随时通过观看、点赞、评论等行为积极参与其中。博主依据平台的推荐机制和用户反馈,调整并提升内容质量,从而提高自身影响力。而用户则通过互动行为,反向影响平台的内容推荐系统。
现某社交媒体平台需深入分析现有用户和博主之间的互动行为关系,来预测用户行为,并优化内容推荐方法。附件1记录了该平台在2024.7.11-2024.7.20之间的数据,包括用户ID、用户行为、博主ID、时间。其中用户行为列中,数字1、2、3分别代表用户对博主发布内容的观看、点赞、评论,4代表关注该博主。时间列代表用户行为发生的时间。需要注意的是,用户点赞、评论和关注的行为均代表用户已观看了内容。此外,用户使用该社交媒体平台的频率和时间不同,若某段时间内附件1中没有记录某用户的行为数据,则代表该时段内用户没有使用该社交媒体平台。附件2中记录了2024.7.22用户进行观看、点赞、评论的行为数据。
假设:(1) 该平台用户和博主数量固定,不存在平台新用户/博主的加入和账号注销行为;(2)用户和博主的互动关系建立后不再变化,即平台中用户不存在取消点赞、删除评论、取消关注的行为。请结合附件数据,建立数学模型,解决下列问题。
问题1. 基于用户与博主历史交互数据(观看、点赞、评论、关注)的统计分析,能够有效揭示用户行为特征,为内容优化和交互提升提供决策依据。根据附件1提供的数据,请建立数学模型,预测各博主在2024.7.21当天新增的关注数,并根据预测结果,在表1中填写当日新增关注数最多的5位博主ID及其对应的新增关注数。
表1 问题1结果
排名 | 1 | 2 | 3 | 4 | 5 |
博主ID | |||||
新增关注数 |
问题2. 附件2提供了2024.7.22当天用户进行观看、点赞、评论的行为数据,结合附件1中用户的历史行为数据,请建立数学模型,预测用户在2024.7.22产生的新关注行为,并将指定用户在2024.7.22新关注的博主ID填入表2。
表2 问题2结果
用户ID | U7 | U6749 | U5769 | U14990 | U52010 |
新关注博主ID |
注:若用户在2024.7.22关注多名博主,均填入表2;若用户在2024.7.22未新关注博主,无需填写。
问题3. 用户与博主之间互动数可视为点赞数、评论数、关注数之和,平台可据此制定合理的推荐方案,为用户推送“量身定制”的内容,增加用户与博主之间的互动。请基于附件1数据,建立数学模型,预测指定用户在2024.7.21当天是否在线(即使用该社交媒体平台),如果在线,进一步预测该用户可能与博主产生的互动关系,并给出可能与其产生互动数最高的3名博主,将对应的博主ID填入表3。
表3 问题3结果
用户ID | U9 | U22405 | U16 | U48420 |
博主ID 1 | ||||
博主ID 2 | ||||
博主ID 3 |
注:若该用户在2024.7.21未使用该社交媒体平台,则无需填写。
问题4. 平台在制定推荐方案时,会充分考虑不同用户使用社交媒体的时间习惯。在问题3的基础上,基于附件1数据,建立数学模型,预测表4中指定用户在2024.7.23是否在线(即使用社交媒体平台),进一步预测该用户在每个在线时段与每个博主的互动数,给出该互动数最高的3名博主ID以及对应的时段,并将结果填入表4。
表4 问题4结果
用户ID | U10 | U1951 | U1833 | U26447 |
博主ID 1 | ||||
时段1 | ||||
博主ID 2 | ||||
时段2 | ||||
博主ID 3 | ||||
时段3 |
注:若该用户在2024.7.23未使用该社交媒体平台,则无需填写;推荐时段,只能在以下24个时段中选取0:00-1:00, 1:00-2:00, ……, 23:00-24:00。
获取免费思路和资料关注b站账号小驴数模
C题 社交媒体平台用户分析问题解题思路与模型构建
问题1:预测2024.7.21各博主新增关注数
目标:基于附件1的历史交互数据(2024.7.11-2024.7.20),预测2024.7.21各博主的新增关注数,并给出新增关注数最多的5位博主ID及其预测值。
解题步骤:
- 数据预处理:
- 提取附件1中所有“关注”行为(行为类型=4),按博主ID和时间(2024.7.11-2024.7.20)统计每日新增关注数。
- 计算每个博主的历史关注增长趋势(如每日新增关注数的滑动平均、增长率等)。
- 特征工程:
- 博主特征:
- 历史日均新增关注数。
- 历史关注增长趋势(如线性回归斜率)。
- 博主内容特征(如发布频率、内容类型,需从数据中提取隐含特征)。
- 用户特征(可选):
- 用户对博主的互动行为(观看、点赞、评论)是否与关注行为正相关。
- 博主特征:
- 模型选择:
- 时间序列模型:
- 对每个博主的新增关注数建立时间序列模型(如ARIMA、Prophet),预测2024.7.21的新增关注数。
- 回归模型:
- 以历史关注增长趋势、博主内容特征为输入,建立回归模型(如线性回归、XGBoost)预测新增关注数。
- 协同过滤:
- 基于用户-博主交互矩阵,计算博主之间的相似性,预测新增关注数。
- 时间序列模型:
- 模型训练与预测:
- 使用2024.7.11-2024.7.20的数据训练模型,预测2024.7.21的新增关注数。
- 对所有博主进行预测,并按预测值排序,取前5位。
- 结果输出:
- 填写表1,格式如下:
排名 1 2 3 4 5
博主ID B1 B2 B3 B4 B5
新增关注数 120 110 105 98 95
- 填写表1,格式如下:
问题2:预测2024.7.22用户新关注行为
目标:基于附件1的历史行为数据和附件2的2024.7.22互动数据(观看、点赞、评论),预测指定用户在2024.7.22的新关注行为。
解题步骤:
- 数据预处理:
- 提取附件1中所有用户的历史行为数据,统计每个用户对每个博主的互动行为(观看、点赞、评论、关注)的次数。
- 提取附件2中2024.7.22的用户互动数据(观看、点赞、评论),记录用户与博主的交互。
- 特征工程:
- 用户特征:
- 用户对博主的历史互动行为(观看、点赞、评论)的次数。
- 用户对博主的互动频率(如最近7天的互动次数)。
- 用户对博主的互动类型分布(如点赞/评论占比)。
- 博主特征:
- 博主的内容质量(如平均点赞数、评论数)。
- 博主的历史关注转化率(如互动用户中最终关注的比例)。
- 用户特征:
- 模型选择:
- 二分类模型:
- 对每个用户-博主对,建立二分类模型(如逻辑回归、随机森林、XGBoost),预测用户是否会在2024.7.22关注该博主。
- 输入特征:用户对博主的历史互动行为、博主的内容特征、用户与博主的互动时间间隔等。
- 关联规则挖掘:
- 使用Apriori算法挖掘用户互动行为与关注行为之间的关联规则(如“点赞+评论”后关注概率高)。
- 二分类模型:
- 模型训练与预测:
- 使用附件1的数据训练模型,预测附件2中指定用户在2024.7.22的新关注行为。
- 对每个指定用户,输出其可能新关注的博主ID。
- 结果输出:
- 填写表2,格式如下:
用户ID U7 U6749 U5769 U14990 U52010
新关注博主ID B1,B2 B3 B4,B5
- 填写表2,格式如下:
问题3:预测用户在线状态及互动关系
目标:基于附件1的数据,预测指定用户在2024.7.21是否在线,若在线,预测其可能互动的博主ID(互动数最高的3位)。
解题步骤:
- 用户在线状态预测:
- 特征工程:
- 用户的历史活跃时间分布(如每日活跃时段、活跃天数)。
- 用户最近7天的活跃频率(如每日活跃次数)。
- 模型选择:
- 使用二分类模型(如逻辑回归、随机森林)预测用户是否在线。
- 输入特征:用户的历史活跃时间、活跃频率等。
- 特征工程:
- 用户互动博主预测:
- 特征工程:
- 用户对每个博主的历史互动行为(观看、点赞、评论)的次数。
- 用户与博主的最近互动时间间隔。
- 博主的内容质量(如平均互动数)。
- 模型选择:
- 对在线用户,使用排序模型(如Learning to Rank)或回归模型预测用户与每个博主的互动数。
- 输入特征:用户对博主的历史互动行为、博主的内容特征等。
- 排序与选择:
- 对每个在线用户,按预测互动数排序,取前3位博主。
- 特征工程:
- 结果输出:
- 填写表3,格式如下:
用户ID U9 U22405 U16 U48420
博主ID 1 B1 B2 B3
博主ID 2 B4 B5 B6
博主ID 3 B7 B8 B9
- 填写表3,格式如下:
问题4:预测用户在线时段及互动关系
目标:基于附件1的数据,预测指定用户在2024.7.23是否在线,若在线,预测其在线时段及每个时段内互动数最高的3位博主ID。
解题步骤:
- 用户在线状态预测:
- 与问题3类似,使用二分类模型预测用户是否在线。
- 用户在线时段预测:
- 特征工程:
- 用户的历史活跃时段分布(如每日活跃时段占比)。
- 用户最近7天的活跃时段。
- 模型选择:
- 使用多分类模型(如随机森林、XGBoost)预测用户在线的时段(24个时段之一)。
- 或使用时间序列模型预测用户活跃时段的概率分布。
- 特征工程:
- 用户互动博主预测:
- 特征工程:
- 用户对每个博主的历史互动行为(按时段统计)。
- 博主的内容质量(按时段统计)。
- 模型选择:
- 对每个在线用户和时段,使用回归模型预测用户与每个博主的互动数。
- 输入特征:用户对博主的历史互动行为(按时段)、博主的内容特征(按时段)等。
- 排序与选择:
- 对每个在线用户和时段,按预测互动数排序,取前3位博主。
- 特征工程:
- 结果输出:
- 填写表4,格式如下:
用户ID U10 U1951 U1833 U26447
博主ID 1 B1 B2 B3
时段1 12:00-13:00 14:00-15:00 18:00-19:00
博主ID 2 B4 B5 B6
时段2 13:00-14:00 15:00-16:00 19:00-20:00
博主ID 3 B7 B8 B9
时段3 14:00-15:00 20:00-21:00 21:00-22:00
- 填写表4,格式如下:
模型优化与验证
- 交叉验证:
- 使用时间序列交叉验证(如滑动窗口法)验证模型性能。
- 评估指标:
- 问题1:RMSE、MAE(预测新增关注数)。
- 问题2:准确率、召回率、F1-score(预测新关注行为)。
- 问题3:AUC、准确率(预测在线状态),NDCG(预测互动博主)。
- 问题4:AUC(预测在线状态),NDCG(预测互动博主及时段)。
- 特征重要性分析:
- 使用SHAP值或特征重要性分析关键特征。
总结
- 问题1:时间序列模型或回归模型预测新增关注数。
- 问题2:二分类模型预测新关注行为。
- 问题3:二分类模型+排序模型预测在线状态及互动博主。
- 问题4:多分类模型+回归模型预测在线时段及互动博主。
通过以上步骤,可以系统地解决社交媒体平台用户分析问题,并为平台提供数据驱动的推荐策略优化建议。