词向量源码解析:(6.1)fasttext源码解析

fasttext是word2vec的作者mikolov参与的制作的一个工具包,可以用来训练词向量和进行文本分类。目前已经引起了广泛的关注。这个工具包在github上面的地址是 https://github.com/facebookresearch/fastText 这个项目是C++写的,和之前的项目相比这个项目更加专业,涉及的内容也比之前的项目多很多。所以我们对fasttext的连载也会比较多。

fasttext工具包可以用来生成词向量,也可以用来得到文本向量,进行文本分类。fasttext在生成词向量的时候用到了subword信息,也就是连续的字符信息。fasttext在生成文本向量的时候用到了ngram的信息。其实fasttext模型的原理和word2vec差不多。在word2vec中是通过单词预测单词。比如CBOW是上下文单词的词向量的平均去预测中心词。在fasttext训练词向量的过程中是用连续字符的向量的平均得到单词向量,后面都和word2vec一样。在fasttext训练文本向量进行分类的过程是用这个文档所有单词的词向量的平均预测标签。如果了解word2vec的代码,看懂fasttext代码也不是那么困难。首先我们还是看一下fasttext的目录。所有的C++代码都在src中。然后就是一些linux脚本文件


我们进入src目录看看有哪些C++文件。从上往下看,args是专门存储超参的类。dictionary是词典类,构建存储词典,支持把单词转成id。fasttext是

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值