【打卡】零基础入门推荐系统 - 新闻推荐

赛题背景

赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。

Task1:比赛报名与数据读取

在这里插入图片描述
在这里插入图片描述

Task2:比赛数据分析

步骤1:用户属性分析,使用可视化图表分析以下内容

训练集和测试集中分别有多少用户?
在这里插入图片描述
答:训练集有200000用户,测试集有50000用户。
用户城市分布有什么规律?
在这里插入图片描述
答:训练集和测试集显示绝大多数用户都来自城市1,数据分布很不均衡
平均每个用户会点击多少个文章?
在这里插入图片描述
答:训练集每个用户平均会点击5.56篇文章,测试集为10.36篇
点击来源与文章点击次数是否存在关联?
在这里插入图片描述
在这里插入图片描述
答:训练集和测试集都显示出点击来源与文章点击次数存在关联,部分来源的文章点击次数明显较高。

步骤2:用户行为分析,使用可视化图表分析以下内容

用户点击行为从时间戳上,能够判断连续点击?
在这里插入图片描述
答:可以判断连续点击,若用户ID、文章ID和时间戳都相同,则可以判断这些点击为重复点击。
用户在查看文章时,文章的之间是否存在相似性?
在这里插入图片描述
在这里插入图片描述答:通过统计两篇文章连续被点击的次数,可以两篇文章被连续点击的平均概率约为3左右,说明用户点击的文章之间存在较强的关联性,该特征可以作为预测的强特征。
用户在查看文章时,点击来源和文章类型是否存在关联?
在这里插入图片描述
答:通过聚类可以发现,点击来源和文章类型存在一定的关联,例如,来源于6的用户只倾向于点击很少的几十类文章。

步骤3:文章内容分析,使用可视化图表分析以下内容

文章字数与点击次数是否存在关联
在这里插入图片描述
答:通过统计发现,平均来看用户倾向于点击平均字数在200左右的文章。
文章嵌入的向量是否可以用来计算文章相似度,尝试聚类并进行降维可视化
在这里插入图片描述
答:embedding向量可以用来计算相似度,上文采用KMean算法(类别数为10)进行简单的聚类和可视化,这里聚类的效果不太好,未来可考虑LDA等算法进行聚类分析。
文章创建的时间与文章点击的时间是否存在关联?
在这里插入图片描述
答:文章的创建时间与点击事件存在关联,大部分人比较倾向于阅读创建时间更新的文章。

Task3:验证集构造与本地评分

步骤1:验证集划分

划分方法1:将训练集每个用户最终五个文章划分划分为验证集,剩余的划分为训练集。
划分方法2:将训练集按照时间戳划分训练集与验证集,时间戳可以自定义
划分方法3:按照用户占比划分,如80%的用户划分为训练集,剩余的20%作为验证集
思考:上述三种划分方法,哪种在比赛中最合适?为什么?哪种可以交叉验证?
在这里插入图片描述
答:上述三种方法按照用户占比划分在比赛中最为合适,因为本赛题最终的评价标准是以用户为目标进行预测,得到每个用户最后点击的文章,该方法可以用作交叉验证,例如像上图一样将用户分成五份,每次选四份作为训练集,一份作为测试集。
步骤2:定义评分方法
使用Numpy定义评分函数函数
思考:评分方法评价的是一个排序问题,还是一个召回问题?
答:评分方法评价的是一个召回问题,因为其评价的是我们在预测的结果中,是否对用户最后一次点击进行召回,这与召回率的定义"在找到实际为正的样本中多少被预测为正"是相似的。
思考:在构建模型时,选择二分类还是多分类建模,为什么?
答:可以按照二分类建模简化模型,将实际最后点击的文章设定为正样本,其它未点击的文章选取一部分设为负样本,从而简化计算。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值