Fasttext
github上给的文件不太会用,就用写好的fasttext包
1、fasttext的特点
2、代码使用
1、fasttext特点
-
层次化softmax
使用霍夫曼树对标签进行编码,应对不同类别的数量不平衡问题 -
N-gram特征
可以向N-gram一样考虑到词的顺序
2、代码使用
import fasttext
#训练集格式
#__label__ , 字符串1, 字符串2
#label_prefix可根据自己的文件自定义
model = fasttext.supervised("train.txt", "new.model", label_prefix="__label__")
#无监督模式
model = fasttext.skipgram(input_file='unsupervised.txt',output='model')
model = fasttext.cbow(input_file='unsupervised.txt',output='model')
很好的参考资料:
https://blog.csdn.net/john_bh/article/details/79268850
https://pypi.org/project/fasttext/