word2vec

NorthFish北海有鱼

已于 2023-02-06 19:30:00 修改

阅读量249

点赞数

分类专栏：机器学习，数据挖掘文章标签：算法

于 2020-11-17 13:42:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MaYingColdPlay/article/details/109740422

版权

机器学习，数据挖掘专栏收录该内容

19 篇文章 0 订阅

订阅专栏

song2vec实际上是item2vec，是word2vec在推荐场景中的应用。就是用用户兴趣序列，去模拟自然语言处理中有前后逻辑关系的句子。

用户的兴趣序列

是根据用户行为来构建的，比如在音乐场景下，有不同的行为，播放，点赞，收藏，分享等。给不同的行为不同的权重。取一段时间内的行为来构建序列，比如长期兴趣序列和短期兴趣序列。最终得到的是一个用户兴趣偏好向量，按照偏好度排序的。

word2vec的数学原理。

word2vec 中的数学原理详解（四）基于 Hierarchical Softmax 的模型_皮果提的博客-CSDN博客

层次softMax

哈夫曼树。（大话数据结构，小象学院）

哈夫曼树是最小的带权路径二叉树。

建树过程：按照词频从小到大排序，然后先选最小的两个，小的为左节点，大的为右节点，建树，然后往上递归。

使用哈夫曼树的好处在于，即降低了计算量，而且由于按照词频构造的哈夫曼树，高频词可以较短时间内找到。

损失函数是从根结点到叶子节点的几个2分类损失函数相乘。

负采样

为什么要做负采样推荐系统（四）—— 负采样 - 知乎

按照词频做采样，词频高的更容易被训练到。

词典中的每个词在语料库中出现的频次有高有低，理论上来说，对于那些高频词，被选为负样本的概率较大，对于那些低频词，被选为负样本的概率较小。
基于这个基本事实，可以通过带权采样方法来实现。

有一种采样方法，也可以用于双塔：Alias采样算法

Alias采样算法 - 吱吱了了 - 博客园

item2vec不能处理物品冷启动问题，但是可以加一些策略来拯救一下，比如说用同一分类下有embedding的物品的enbedding均值作为新物品的embedding

优化点：序列截断，如果偏差过大的话，就截断成2个序列。

优化点：graph embedding，图随机游走（阿里的一篇论文）

item2vec中两种不同的构建样本的方式

item2vec详解_bitcarmanlee的博客-CSDN博客_item2vec

抖音赛中是用时序序列，音乐上是用集合序列。

cbow 与 skip-gram的比较

cbow 与 skip-gram的比较 - 知乎

用skip gram方法来训练，因为音乐场景长尾ID比较多。对生僻字的训练效果好。

NorthFish北海有鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
word2vec

song2vec实际上是item2vec，是word2vec在推荐场景中的应用。就是用用户兴趣序列，去模拟自然语言处理中有前后逻辑关系的句子。用户的兴趣序列是根据用户行为来构建的，比如在音乐场景下，有不同的行为，播放，点赞，收藏，分享等。给不同的行为不同的权重。取一段时间内的行为来构建序列，比如长期兴趣序列和短期兴趣序列。最终得到的是一个用户兴趣偏好向量，按照偏好度排序的。word2vec的数学原理。item2vec不能处理物品冷启动问题，但是可以加一些策略来拯救一下，比如说用...
复制链接

扫一扫

专栏目录

NorthFish北海有鱼 CSDN认证博客专家 CSDN认证企业博客

码龄7年

170: 原创

5万+: 周排名

2万+: 总排名

9万+: 访问

: 等级

2035: 积分

82: 粉丝

37: 获赞

97: 评论

58: 收藏

私信

关注

热门文章

分类专栏

git和shell 10篇
tensorflow 7篇
推荐 13篇
深度学习 10篇
HIVE 4篇
C++ 2篇
Java 7篇
scala 2篇
系统设计 3篇
python 7篇
学校申请 2篇
spark 2篇
机器学习，数据挖掘 19篇
leetcode 66篇
算法基础 8篇
面试 5篇

最新评论

聚类算法会在训练集上过拟合吗
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
常用召回算法
NorthFish北海有鱼: https://zhuanlan.zhihu.com/p/321977863 多路召回
常用召回算法
NorthFish北海有鱼: https://zhuanlan.zhihu.com/p/357975356 推荐系统召回综述
排序常用模型
NorthFish北海有鱼: https://www.cnblogs.com/toonice/p/14870203.html
排序常用模型
NorthFish北海有鱼: https://blog.csdn.net/yanguang1470/article/details/123647803?spm=1001.2101.3001.6650.4&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-123647803-blog-108852539.pc_relevant_default&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-4-123647803-blog-108852539.pc_relevant_default&utm_relevant_index=5

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。