零基础入门NLP-Task1 赛题理解

最新推荐文章于 2024-04-09 15:49:47 发布

Melia123

最新推荐文章于 2024-04-09 15:49:47 发布

阅读量189

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/pinocchio221/article/details/107464511

版权

Task1 赛题理解

数据集：新闻文本数据，按照字符级别进行过匿名处理。训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。
候选分类类别：财经财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐，共14个。在数据集中标签的对应关系如下：
{‘科技’：0，‘股票’：1，‘体育’：2，‘娱乐’：3，‘时政’：4，‘社会’：5，‘教育’：6，‘财经’：7，‘家居’：8，‘游戏’：9，‘房产’：10，‘时尚’：11，‘彩票’：12，‘星座’：13，}

说明：为了预防选手人工标注测试集的情况，比赛数据的文本按照字符级别进行了匿名处理。处理后的赛题训练数据如下：
在这里插入图片描述

评价标准为类别 f1_score 的均值，选手提交结果与实际测试集的类别进行对比，结果越大越好。

其中：precision为查准率，recall为查全率。

参考思路：

TF-IDF + 机器学习分类器
直接使用TF-IDF对文本提取特征，并使用分类器进行分类。在分类器的选择上，可以使用SVM、LR、或者XGBoost。
FastText
FastText是入门款的词向量，利用Facebook提供的FastText工具，可以快速构建出分类器。
WordVec + 深度学习分类器
WordVec是进阶款的词向量，并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM。
Bert词向量
Bert是高配款的词向量，具有强大的建模学习能力。

关注