零基础入门NLP赛事 - Task4 基于深度学习的文本分类1-fastText

最新推荐文章于 2022-11-20 12:41:54 发布

友谊无价

最新推荐文章于 2022-11-20 12:41:54 发布

阅读量205

点赞数

分类专栏：数据分析文章标签：深度学习

本文链接：https://blog.csdn.net/qq_24294439/article/details/107623627

版权

数据分析专栏收录该内容

10 篇文章 0 订阅

订阅专栏

方法：fasttext

fasttext是一种典型的基于深度学习模型的word embedding方法

是一个三层神经网络，由输入层、隐含层和输出层表示：

核心代码：

import pandas as pd
from sklearn.metrics import f1_score

# 转换为FastText需要的格式
train_df = pd.read_csv('data/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')

import fasttext
model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, 
                                  verbose=2, minCount=1, epoch=25, loss="hs")

val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))
# 0.82

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

友谊无价

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门NLP赛事 - Task4 基于深度学习的文本分类1-fastText

方法：fasttextfasttext是一种典型的基于深度学习模型的word embedding方法是一个三层神经网络，由输入层、隐含层和输出层表示：核心代码：import pandas as pdfrom sklearn.metrics import f1_score# 转换为FastText需要的格式train_df = pd.read_csv('data/train_set.csv', sep='\t', nrows=15000)train_df['label_ft']
复制链接

扫一扫