零基础入门推荐系统【数据分析】Task2(学习心得)

零基础入门推荐系统【数据分析】Task2(学习心得)

链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.41052b3aXVmMWE&postId=144451

个人觉得不进行数据分析,特征分析的机器学习都是纸上谈兵,故写一下学习心得,总的来说整个流程分为以下三点:

1.观其大略。先是对整个数据集的总览(常用技巧:排序、扩列),查看数据集的规模,对数据集进行表连接从而可以更容易发现分散的数据之间的关系;运用pandas describe函数,subplot画柱状图对每个字段进行可视化分析,运用max、min函数了解数据集的边界。

2.分析用户行为。因为是新闻推荐,对应的行为就是点击事件的分析。本文从同一用户重复点击的文章、以及用户点击文章次数的分布、点击文章的环境(操作系统、设备)、活跃用户(点击次数较多的用户)、热门文章(被点击最多的文章)、用户点击的文章的长度、新闻类型出现的频度、点击事件发生的时间 这些角度进行分析,多个维度展示了数据分布,便于日后特征工程有的放矢。

3.路径分析。路径分析个人认为有 同一用户连续点击文章的pair分析(即点击文章的行为路径)

4.用户画像。通过对用户点击过的新闻类型进行分析,可以得出用户的兴趣的用户画像。

5.制作文章的嵌入向量(embeding vector)。本文中采用的是word2vec算法,这个算法是谷歌提出的词向量算法(本质上是将没有上下文环境的one-hot编码通过神经网络训练后得到具有上下文语意的词向量),具体实现可以参照知乎这篇文章(https://zhuanlan.zhihu.com/p/269312855)。由于word2vec的核心思想是:出现在同上下文的单词大概率会是近义词,这与推荐系统中“一个用户选择过的商品大概率是相似”的思想相近,故我们可以把每个用户点击过的文章看作是一个上下文环境,每个商品id对应的就是一个个单词,由此做出embeding vector。

6.最后文中选择了相邻的文章进行余弦相似度的计算,个人觉得这里有点不妥,不应该是任意两篇文章都要做余弦相似度的计算?

7.还有一个地方可能是笔误。

希望可以抛砖引用,大家一起讨论学习。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值