Datawhale - 入门NLP之新闻文本分类 - task4 DL之FastText实现

最新推荐文章于 2024-06-25 00:56:48 发布

何小义的AI进阶路

最新推荐文章于 2024-06-25 00:56:48 发布

阅读量161

点赞数

分类专栏： datawhale 深度学习自然语言处理文章标签：自然语言处理深度学习 python

本文链接：https://blog.csdn.net/hzy459176895/article/details/107629096

版权

深度学习同时被 3 个专栏收录

13 篇文章 1 订阅

订阅专栏

datawhale

8 篇文章 1 订阅

订阅专栏

自然语言处理

4 篇文章 1 订阅

订阅专栏

PS. 因工作繁忙，没时间详细更新博客，先发一段实现代码，后续更新详细实现原理！！！

基于深度学习的fasttext的新闻文本分类实践（python）：

import pandas as pd
from sklearn.metrics import f1_score

# 转换为FastText需要的格式
train_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')

import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=25, loss="hs")

val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))
# 0.82