NLP入门学习

最新推荐文章于 2024-09-12 07:46:02 发布

qq_43573149

最新推荐文章于 2024-09-12 07:46:02 发布

阅读量161

点赞数

文章标签： nlp 自然语言处理机器学习

本文链接：https://blog.csdn.net/qq_43573149/article/details/107487339

版权

NLP入门学习

本次入门比赛是有关新闻文本分类，也是第一次接触NLP相关的比赛。抱着学习的心态，对本次赛题进行了一些粗略的分析。

赛题理解

本赛题是一个NLP中典型文本分类的问题，赛题数据20W，一共14个类别。
赛题数据如下：

赛题类别分布如下：
文本类别数量
由图可见，类别数量最多的是科技，股票，体育占了大部分。

思路及方向

由于数据是非结构化数据，需要对其特征进行提取。
例如：
1.计算TF-IDF：词频-逆文档频率，通过TF-词频，DF-文档频数通过一定方法计算，得到的值为该词在该文档中的权重，将其作为特征进行训练
2.统计词频：统计每个词语在文档中出现的次数，并将其作为特征。

baseline构建

选择了较熟悉的ligthgbm模型，由于内存不足等原因。特征选择上就采用了统计词频这一方法。

# 词频统计
from sklearn.feature_extraction.text import CountVectorizer
ngram_vectorizer = CountVectorizer(min_df=0.05,max_df=0.8,decode_error='replace')

# 模型训练
from lightgbm import LGBMClassifier
gbm=LGBMClassifier(eval_metric='auc')
gbm.fit(train_x,train_y,eval_set=[(test_x,test_y)],verbose=True)
pre=gbm.predict(test_x)
f1_score(test_y,pre, average='macro')

下一步工作

1.对数据集更进一步的分析，提取更多有用的信息。
2.特征工程上，构建更多的有效的特征。
3.尝试深度学习的模型。

qq_43573149

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫