NLP学习4-基于深度学习的文本分类（FastText）

最新推荐文章于 2022-09-01 11:43:26 发布

小俊俊的博客

最新推荐文章于 2022-09-01 11:43:26 发布

阅读量272

点赞数

分类专栏： NLP学习文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_41868104/article/details/107621853

版权

NLP学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

NLP学习4-基于深度学习的文本分类（FastText）

一，学习目标

1.学习FastText的使用和基础原理
2.学会使用验证集进行调参

二，fastText原理

fastText优点是可以快速的在cpu上进行训练，但是准确率不高。

fastText将输入的文本特征通过一层全连接层映射到向量空间，然后将词向量平均处理一下，去做预测。
在这里插入图片描述
keras模型搭建如图：

三，fastText的实现

1.pip安装fastText

pip3 install fasttext

2.代码

import pandas as pd
from sklearn.metrics import f1_score

# 转换为FastText需要的格式
train_df = pd.read_csv('/home/jun/NLP/input/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')

import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=25, loss="hs")

val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))