零基础入门NLP-新闻文本分类

最新推荐文章于 2022-04-22 12:56:26 发布

unique-sunny

最新推荐文章于 2022-04-22 12:56:26 发布

阅读量184

点赞数

分类专栏： NLP 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20038055/article/details/107624105

版权

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、fasttext主要参数

lr：学习率

dim: 隐藏层词向量维数

ws: 背景词窗口大小

minCount: 最小词频

wordNgrams: n-gram最大长度

loss: 损失函数

2、fasttext实验主要代码

import fasttext
import pandas as pd
from sklearn.model_selection import train_test_split

train_df = pd.read_csv('./train_set.csv', sep='\t')
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
X_train, X_valid, y_train, y_valid = train_test_split(train_df[['text', 'label_ft']], train_df['label'], test_size=0.2, shuffle=True, random_state=42)
X_train.to_csv('train.csv', index=None, header=None, sep='\t')
model = fasttext.train_supervised('train.csv', lr=0.05, dim=3000, wordNgrams=3,
verbose=2, minCount=1, epoch=50, loss="hs")
val_pred = [model.predict(x)[0][0].split('__')[-1] for x in X_valid['text']]
print(f1_score(y_valid.astype(str), val_pred, average='macro'))

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。