fasttext的基本使用 java 、python为例子

最新推荐文章于 2024-06-23 09:47:38 发布

weixin_34355715

最新推荐文章于 2024-06-23 09:47:38 发布

阅读量247

点赞数

文章标签： java python 人工智能

fasttext的基本使用 java 、python为例子

今天早上在地铁上看到知乎上看到有人使用fasttext进行文本分类，到公司试了下情况在GitHub上找了下，最开始是c++版本的实现，不过有Java、Python版本的实现了，正好拿下来试试手，

python情况:

python版本参考,作者提供了详细的实现，并且提供了中文分词之后的数据，正好拿下来用用，感谢作者，代码提供的数据作者都提供了，点后链接在上面有百度盘，可下载，java接口用到的数据也一样:

[html] view plain copy

http://blog.csdn.net/lxg0807/article/details/52960072

[python] view plain copy

import logging
import fasttext
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
#classifier = fasttext.supervised("fasttext/news_fasttext_train.txt","fasttext/news_fasttext.model",label_prefix="__label__")
#load训练好的模型
classifier = fasttext.load_model('fasttext/news_fasttext.model.bin', label_prefix='__label__')
result = classifier.test("fasttext/news_fasttext_test.txt")
print(result.precision)
print(result.recall)
labels_right = []
texts = []
with open("fasttext/news_fasttext_test.txt") as fr:
lines = fr.readlines()
for line in lines:
labels_right.append(line.split("\t")[1].rstrip().replace("__label__",""))
texts.append(line.split("\t")[0])
# print labels
# print texts
# break
labels_predict = [e[0] for e in classifier.predict(texts)] #预测输出结果为二维形式
# print labels_predict
text_labels = list(set(labels_right))
text_predict_labels = list(set(labels_predict))
print(text_predict_labels)
print(text_labels)
A = dict.fromkeys(text_labels,0) #预测正确的各个类的数目
B = dict.fromkeys(text_labels,0) #测试数据集中各个类的数目
C = dict.fromkeys(text_predict_labels,0) #预测结果中各个类的数目
for i in range(0,len(labels_right)):
B[labels_right[i]] += 1
C[labels_predict[i]] += 1
if labels_right[i] == labels_predict[i]:
A[labels_right[i]] += 1
print(A )
print(B)
print( C)
#计算准确率，召回率，F值
for key in B:
p = float(A[key]) / float(B[key])
r = float(A[key]) / float(C[key])
f = p * r * 2 / (p + r)
print ("%s:\tp:%f\t%fr:\t%f" % (key,p,r,f))