FastText文本学习

学习相关网址:

知乎fasttext原理介绍:https://zhuanlan.zhihu.com/p/32965521

机器不学习:FastText入门与实战:https://baijiahao.baidu.com/s?id=1607951833437361172&wfr=spider&for=pc

文本特征工程之N-Gram:https://blog.csdn.net/m0epNwstYk4/article/details/78861537

fasttext的词向量表征:https://blog.csdn.net/chenweihua556/article/details/73381608

内容部分:

fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句(利用n-gram特征中的词序特征来补充词袋模型中词的无序),还有使用子字(subword)信息,并通过隐藏表征在类别间共享信息。我们另外采用了一个softmax层级(利用了类别不均衡分布的优势)来加速运算过程。

主要用于两个任务:

有效文本分类:有监督学习

学习次向量表征:无监督学习 

模型架构:

类似于word2vec中的cbow模型类似:

fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。

序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。

fastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于,fastText 预测标签,而 CBOW 模型预测中间词。

层次softmax:

对于大量类别的的数据集采用分层分类器,将不同类别整合在数结构中,使用层次softmax技巧,对白哦前进行编码,极大缩小目标预测的数量。

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值