词向量源码解析：（6.1）fasttext源码解析

最新推荐文章于 2024-05-25 22:32:39 发布

Sailing_ZhaoZhe

最新推荐文章于 2024-05-25 22:32:39 发布

阅读量3.7k

点赞数

分类专栏：词向量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011793737/article/details/78132891

版权

fasttext是word2vec的作者mikolov参与的制作的一个工具包，可以用来训练词向量和进行文本分类。目前已经引起了广泛的关注。这个工具包在github上面的地址是 https://github.com/facebookresearch/fastText 这个项目是C++写的，和之前的项目相比这个项目更加专业，涉及的内容也比之前的项目多很多。所以我们对fasttext的连载也会比较多。

fasttext工具包可以用来生成词向量，也可以用来得到文本向量，进行文本分类。fasttext在生成词向量的时候用到了subword信息，也就是连续的字符信息。fasttext在生成文本向量的时候用到了ngram的信息。其实fasttext模型的原理和word2vec差不多。在word2vec中是通过单词预测单词。比如CBOW是上下文单词的词向量的平均去预测中心词。在fasttext训练词向量的过程中是用连续字符的向量的平均得到单词向量，后面都和word2vec一样。在fasttext训练文本向量进行分类的过程是用这个文档所有单词的词向量的平均预测标签。如果了解word2vec的代码，看懂fasttext代码也不是那么困难。首先我们还是看一下fasttext的目录。所有的C++代码都在src中。然后就是一些linux脚本文件

我们进入src目录看看有哪些C++文件。从上往下看，args是专门存储超参的类。dictionary是词典类，构建存储词典，支持把单词转成id。fasttext是

最低0.47元/天解锁文章

Sailing_ZhaoZhe

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
词向量源码解析：（6.1）fasttext源码解析

fasttext是word2vec的作者mikolov参与的制作的一个工具包，可以用来训练词向量和进行文本分类。目前已经引起了广泛的关注。这个工具包在github上面的地址是 https://github.com/facebookresearch/fastText 这个项目是C++写的，和之前的项目相比这个项目更加专业，涉及的内容也比之前的项目多很多。所以我们对fasttext的连载也会比较多。
复制链接

扫一扫

专栏目录

Sailing_ZhaoZhe CSDN认证博客专家 CSDN认证企业博客

码龄11年

43: 原创

105万+: 周排名

199万+: 总排名

4万+: 访问

: 等级

965: 积分

54: 粉丝

17: 获赞

7: 评论

19: 收藏

私信

关注

热门文章

分类专栏

词向量 41篇

最新评论

词向量源码解析：（3.5）GloVe源码解析之glove
Liu_Genie: vector_size加1是因为还有个bias，可以回去看一下论文
词向量源码解析：（5.2）ngram2vec源码解析之uni_uni
lc451574367: scripts/clean_corpus.sh baidu_corpus_cut_2.txt > baidu2019.clean 你好，这行代码得到的baidu2019.clean 不是去掉英文之后的语料库，而是把语料库中的英文和数字提取了出来，请问，怎么才能把语料库中的英文和数字去掉
词向量源码解析：（4.9）hyperwords源码解析小结
sunnychou0330: 为什么这写都打不开尼
词向量源码解析：（5.6）ngram2vec源码解析之pairs2counts
sunnychou0330: 我想知道的是，以word+ngram+character作为信息源，ngram2vec工具包的输入是什么，希望得到您的帮助，十分感谢！
词向量源码解析：（5.6）ngram2vec源码解析之pairs2counts
sunnychou0330: 作者您好，想问一下如果想通过ngram2vec工具包，以word+ngram+character作为信息源，以中文维基百科为训练语料，在整个过程中是怎么样的？我看了您的帖子在ngram2pairs中，可以加入多个信息源作为上下文，在此的话，我加的信息源即是词，字和ngram块，在一开始的训练流程是，先获取corpus-vocabulary，接着是vocabulary-pairs，再是pairs-counts，再进行三元组（word、context、矩阵/character、context、矩阵/ngram、context、矩阵，这三者的信息源）的加载对吗？这个理解对吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。