计划赶不上变化快的fasttext来啦~ fasttxt实力演绎神秘叫我超好用但是你别想好好用。安装这个大坑请看Win10+anaconda3+安装fasttext
数据集还延用清华的新闻数据子集,为了能直接调用fasttext,我们需要将数据稍微整理有一下,每行包括一个训练句子和标签,默认情况下,标签是以__label__开头的字符串单词。
数据文件整理
import jieba
import pandas as pd
import codecs
# 我是一个可爱的进度条
from tqdm import tqdm
stopwords_set = set()
basedir = 'D:/S/Learn/CNew/'
# 分词结果文件
train_file = codecs.open(basedir + 'cnews.seg.train', 'w', 'utf-8')
test_file = codecs.open(basedir + 'cnews.seg.test', 'w', 'utf-8')
# 停用词文件
with open(basedir + 'cnews.vocab.txt', 'r', encoding='utf-8') as fp:
for line in fp:
stopwords_set.add(line.strip())
train_data = pd.read_table(basedir + 'cnews.train.txt', header=None, error_bad_lines=False)
test_