新闻分类大赛task4

最新推荐文章于 2020-12-04 14:45:40 发布

我是飞行模式

最新推荐文章于 2020-12-04 14:45:40 发布

阅读量98

点赞数

分类专栏：新闻分类比赛学习

本文链接：https://blog.csdn.net/u012302260/article/details/107623364

版权

新闻分类比赛学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

构造数据

在fasttext中，标签使用__label__X的形式表示，text label存为csv。

train_df = pd.read_csv(r"train_set.csv",sep='\t')
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')

构建模型

使用上一步生成的csv，输入模型中。
这里使用fasttext包调用模型。

import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=25, loss="hs")
model.save_model("model_fasttext.bin") #模型保存
val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))  #输出f1值

训练全量数据，使用fasttext模型预测，输出结果为0.914.

#读取模型预测结果

model = fasttext.load_model("model_fasttext.bin")
train_test = pd.read_csv(r'test_a.csv', sep='\t')
val_test = [model.predict(x)[0][0].split('__')[-1] for x in train_test['text']]

我是飞行模式

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
新闻分类大赛task4

构造数据在fasttext中，标签使用__label__X的形式表示，text label存为csv。train_df = pd.read_csv(rtrain_set.csv",sep='\t', nrows=15000)train_df['label_ft'] = '__label__' + train_df['label'].astype(str)train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None,
复制链接

扫一扫