零基础入门NLP-Task04：基于深度学习的文本分类1-fastText

最新推荐文章于 2023-06-14 21:45:24 发布

汉堡你吃了吗

最新推荐文章于 2023-06-14 21:45:24 发布

阅读量208

点赞数

分类专栏：零基础入门NLP 文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/m0_46546316/article/details/107596463

版权

零基础入门NLP 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

零基础入门NLP-Task04：基于深度学习的文本分类1

FastText
基于FastText的文本分类
本章作业

与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。
现有文本表示方法：

One-hot
Bag of Words
N-gram
TF-IDF
存在问题：
转换得到的向量维度很高
需要较长的训练时间
没有考虑单词与单词之间的关系，只是进行了统计
深度学习也可以用于文本表示，还可以将其映射到一个低维空间
例：
FastText
Word2Vec
Bert

FastText

FastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。
所以FastText是一个三层的神经网络，输入层、隐含层和输出层。
在这里插入图片描述
FastText在文本分类任务上，是优于TF-IDF的：
1.FastText用单词的Embedding叠加获得的文档向量，将相似的句子分为一类；
2.FastText学习到的Embedding空间维度比较低，可以快速进行训练。

基于FastText的文本分类

import pandas as pd
from sklearn.metrics import f1_score

# 转换为FastText需要的格式
train_df = pd.read_csv('C:/Users/BAO/Desktop/天池/train_set.csv/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')

import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=25, loss="hs")

val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))