零基础入门NLP-新闻文本分类

1、fasttext主要参数

lr:学习率

dim:  隐藏层词向量维数

ws: 背景词窗口大小

minCount: 最小词频

wordNgrams: n-gram最大长度

loss: 损失函数

2、fasttext实验主要代码

import fasttext
import pandas as pd
from sklearn.model_selection import train_test_split

train_df = pd.read_csv('./train_set.csv', sep='\t')
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
X_train, X_valid, y_train, y_valid = train_test_split(train_df[['text', 'label_ft']], train_df['label'], test_size=0.2, shuffle=True, random_state=42)
X_train.to_csv('train.csv', index=None, header=None, sep='\t')
model = fasttext.train_supervised('train.csv', lr=0.05, dim=3000, wordNgrams=3, 
                                  verbose=2, minCount=1, epoch=50, loss="hs")
val_pred = [model.predict(x)[0][0].split('__')[-1] for x in X_valid['text']]
print(f1_score(y_valid.astype(str), val_pred, average='macro'))

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值