Bag of Tricks for Efficient Text Classification(FastText)阅读笔记

最新推荐文章于 2022-11-08 17:04:11 发布

Leokb24

最新推荐文章于 2022-11-08 17:04:11 发布

阅读量462

点赞数 1

分类专栏：论文阅读文本分类论文阅读文章标签：文本分类 fasttext

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leo_95/article/details/89219220

版权

文章目录

FastText
总结

FastText

fastText的核心思想：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。这中间涉及到两个技巧：字符级n-gram特征的引入以及分层Softmax分类。

模型结构

模型结构跟word2vec里的CBOW结构一样, 只不过输出结果由预测词变为了预测类别.

模型的优化函数

Hierarchical softmax

在具体实现上, 和word2vec类似, 为了加快速度在分类时使用hierarchical softmax.

N-gram features

这是与word2vec不同的地方, word2vec直接采用bag-of-word的思想, 而fasttext在训练时还利用字符级别的n-gram信息, 使得训练效果更好.

这带来两点好处：

对于低频词生成的词向量效果会更好。因为它们的n-gram可以和其它词共享。
对于训练词库之外的单词，仍然可以构建它们的词向量。我们可以叠加它们的字符级n-gram向量。

作者在论文中提到, 为了提高效率, 他们使用hashing trick.

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Bag of Tricks for Efficient Text Classification(FastText)阅读笔记

文章目录FastText模型结构Hierarchical softmaxN-gram features实验任务1 Sentiment analysis任务2 Tag prediction总结FastTextfastText的核心思想：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。这中间涉及到两个技巧：字符级n-gram特征的引入以及分层Softm...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。