word2vec and fasttext

茉莉_Molly

已于 2022-09-07 17:24:08 修改

阅读量488

点赞数 1

文章标签： word2vec 人工智能自然语言处理

于 2022-09-07 17:21:18 首次发布

原文链接：https://blog.csdn.net/qq_56591814/article/details/124603294

版权

学习笔记四：word2vec和fasttext_神洛华的博客-CSDN博客_fasttext word2vec

对于word2vec，要懂word2vec两个方式的区别，效果对比，具体怎么获得embbeding，层级二分类，负采样

fasttext与word2vec结构类似，但获取输入的粒度不同，基于ngram，而且训练目的不同

fastText和word2vec的区别

相似处：
1.图模型结构很像，都是采用embedding向量的形式，得到word的隐向量表达。
2.都采用很多相似的优化方法，比如使用Hierarchical softmax优化训练和预测中的打分速度。

不同处：
word2vec用词预测词，而且是词袋模型，没有n-gram。fasttext用文章/句子词向量预测类别，加入了n-gram信息。所以有：

模型的输入层：word2vec的输入层，是 context window 内的词；而fasttext 对应的整个sentence的内容，包括word、n-gram、subword。
模型的输出层：word2vec的输出层，计算某个词的softmax概率最大；而fasttext的输出层对应的是分类的label；
两者本质的不同，体现在 h-softmax的使用：
word2vec用的负采样或者霍夫曼树解法（计算所有词概率，类别过大）。
fasttext用的softmsx全连接分类（类别少）
word2vec主要目的的得到词向量，该词向量最终是在输入层得到（不关注预测的结果准不准，因为霍夫曼树和负采样解法虽然优化了训练速度，但是分类结果没那么准了）。fasttext主要是做分类，虽然也会生成一系列的向量，但最终都被抛弃，不会使用。
word2vec有两种模型cbow和 skipgram，fasttext只有cbow模型。
word2vec属于监督模型，但是不需要标注样本。fasttext也属于监督模型，但是需要标注样本。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
word2vec and fasttext

对于word2vec，要懂word2vec两个方式的区别，效果对比，具体怎么获得embbeding，层级二分类，负采样fasttext与word2vec结构类似，但获取输入的粒度不同，基于ngram，而且训练目的不同
复制链接

扫一扫

茉莉_Molly CSDN认证博客专家 CSDN认证企业博客

码龄5年

15: 原创

117万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

396: 积分

131: 粉丝

203: 获赞

2: 评论

176: 收藏

私信

关注

热门文章

分类专栏

最新评论

回溯算法leetcode题讲解
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
量化行业的info
CSDN-Ada助手: 非常感谢您分享有关量化行业的信息，这篇博客非常有价值！我们非常期待您在未来的博客中继续探索这一领域。作为一位CSDN博主，您可以考虑撰写一篇关于量化交易策略的技术博文，探讨如何利用数据分析和机器学习算法来构建成功的交易策略。祝您写作愉快！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。