零基础入门推荐系统【数据分析】Task2(学习心得）

最新推荐文章于 2024-03-16 23:07:58 发布

码不停Tick

最新推荐文章于 2024-03-16 23:07:58 发布

阅读量201

点赞数

文章标签：推荐系统

本文链接：https://blog.csdn.net/RockyHOO1209/article/details/113486582

版权

零基础入门推荐系统【数据分析】Task2(学习心得）

链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.41052b3aXVmMWE&postId=144451

个人觉得不进行数据分析，特征分析的机器学习都是纸上谈兵，故写一下学习心得，总的来说整个流程分为以下三点:

1.观其大略。先是对整个数据集的总览(常用技巧:排序、扩列)，查看数据集的规模,对数据集进行表连接从而可以更容易发现分散的数据之间的关系；运用pandas describe函数，subplot画柱状图对每个字段进行可视化分析，运用max、min函数了解数据集的边界。

2.分析用户行为。因为是新闻推荐，对应的行为就是点击事件的分析。本文从同一用户重复点击的文章、以及用户点击文章次数的分布、点击文章的环境(操作系统、设备)、活跃用户(点击次数较多的用户)、热门文章(被点击最多的文章)、用户点击的文章的长度、新闻类型出现的频度、点击事件发生的时间这些角度进行分析，多个维度展示了数据分布，便于日后特征工程有的放矢。

3.路径分析。路径分析个人认为有同一用户连续点击文章的pair分析(即点击文章的行为路径)

4.用户画像。通过对用户点击过的新闻类型进行分析，可以得出用户的兴趣的用户画像。

5.制作文章的嵌入向量(embeding vector)。本文中采用的是word2vec算法，这个算法是谷歌提出的词向量算法(本质上是将没有上下文环境的one-hot编码通过神经网络训练后得到具有上下文语意的词向量)，具体实现可以参照知乎这篇文章(https://zhuanlan.zhihu.com/p/269312855)。由于word2vec的核心思想是:出现在同上下文的单词大概率会是近义词，这与推荐系统中“一个用户选择过的商品大概率是相似”的思想相近，故我们可以把每个用户点击过的文章看作是一个上下文环境，每个商品id对应的就是一个个单词，由此做出embeding vector。

6.最后文中选择了相邻的文章进行余弦相似度的计算，个人觉得这里有点不妥，不应该是任意两篇文章都要做余弦相似度的计算?

7.还有一个地方可能是笔误。

希望可以抛砖引用，大家一起讨论学习。

码不停Tick

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门推荐系统【数据分析】Task2(学习心得）

零基础入门推荐系统【数据分析】Task2(学习心得）链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.41052b3aXVmMWE&postId=144451个人觉得不进行数据分析，特征分析的机器学习都是纸上谈兵，故写一下学习心得，总的来说整个流程分为以下三点:1.观其大略。先是对整个数据集的总览(常用技巧:排序、扩列)，查看数据集的规模,对数据集进行表连接从而可以更容易发现分散的数据之间的
复制链接

扫一扫