fasttext学习使用入门

最新推荐文章于 2024-06-13 09:36:45 发布

51号公路

最新推荐文章于 2024-06-13 09:36:45 发布

阅读量1.2k

点赞数

文章标签： python 自然语言处理

本文链接：https://blog.csdn.net/SS51SS/article/details/105030671

版权

fasttext源码位置

功能一：单词表示学习

1:为了学习词向量(向量表示)，我们可以使用fasttext.train_unsupervised函数，像下面这样：

import fasttext
#  data.txt :准备语料时，只需要去掉原始数据中的label标签即可。
# Skipgram model :
俩种方式
model = fasttext.skipgram('data.txt','model')
model = fasttext.train_unsupervised('data.txt', model='skipgram')
# or, cbow model :
model = fasttext.cbow('data.txt','model')
model = fasttext.train_unsupervised('data.txt', model='cbow')

2:保存和加载模型对象:

  model.save_model("model.bin")
  model = fasttext.load_model('model.bin')

3：模型运用

# 加载前面训练好的模型 model.bin
model = fasttext.load_model("model.bin")
print (model.words) # model 中的词汇列表
print (model["king"]) # "king" 的词向量

功能二：文本分类

分类过程：
fasttext在进行文本分类时，huffmax树叶子节点处是每一个类别标签的词向量。在训练过程中，训练语料的每一个词也会得到响应的词向量。输入为一个window 内的词对应的词向量，隐藏层为这几个词的线性相加。相加的结果作为该文档的向量。再通过softmax层得到预测标签。结合文档真实标签计算 loss，梯度与迭代更新词向量（优化词向量的表达）。

from fastText import train_supervised, load_model

流程：
1：数据准备 fasttex_train.txt
处理后的数据：每行代表一个文本，以\n结尾，文本以空格分隔单词，如下所示，文本今天天气真的太好了处理后为：
今天天气真的太好了 __label__1

2.训练模型

import fasttext
#第一个参数是前面得到的 fasttex_train.txt 
model = train_supervised(input=fasttex_train.txt ,

最低0.47元/天解锁文章

51号公路

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
fasttext学习使用入门

fasttext源码位置功能一：单词表达模型1:为了学习词向量(向量表示)，我们可以使用fasttext.train_unsupervised函数，像下面这样：import fasttext# Skipgram model :model = fasttext.train_unsupervised('data.txt', model='skipgram')# or, cbow mod...
复制链接

扫一扫