NLP入门学习

NLP入门学习

本次入门比赛是有关新闻文本分类,也是第一次接触NLP相关的比赛。抱着学习的心态,对本次赛题进行了一些粗略的分析。

赛题理解

本赛题是一个NLP中典型文本分类的问题,赛题数据20W,一共14个类别。
赛题数据如下:
赛题数据
赛题类别分布如下:
文本类别数量
由图可见,类别数量最多的是科技股票体育占了大部分。

思路及方向

由于数据是非结构化数据,需要对其特征进行提取。
例如:
1.计算TF-IDF:词频-逆文档频率,通过TF-词频,DF-文档频数通过一定方法计算,得到的值为该词在该文档中的权重,将其作为特征进行训练
2.统计词频:统计每个词语在文档中出现的次数,并将其作为特征。

baseline构建

选择了较熟悉的ligthgbm模型,由于内存不足等原因。特征选择上就采用了统计词频这一方法。

# 词频统计
from sklearn.feature_extraction.text import CountVectorizer
ngram_vectorizer = CountVectorizer(min_df=0.05,max_df=0.8,decode_error='replace')
# 模型训练
from lightgbm import LGBMClassifier
gbm=LGBMClassifier(eval_metric='auc')
gbm.fit(train_x,train_y,eval_set=[(test_x,test_y)],verbose=True)
pre=gbm.predict(test_x)
f1_score(test_y,pre, average='macro')

下一步工作

1.对数据集更进一步的分析,提取更多有用的信息。
2.特征工程上,构建更多的有效的特征。
3.尝试深度学习的模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值