NLP—新闻文本分类比赛—Task1赛题理解

最新推荐文章于 2022-01-21 16:25:14 发布

律己宽人

最新推荐文章于 2022-01-21 16:25:14 发布

阅读量281

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/CIKE_313520/article/details/107504703

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

学习目标

理解赛题背景与赛题数据
完成赛题报名和数据下载，理解赛题的解题思路
结合datawhale学习小组提出的解决思路，提出自己的解决方案和思路

赛题数据

赛题以匿名处理后的新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。为了预防选手人工标注测试集的情况，我们将比赛数据的文本按照字符级别进行了匿名处理。
下载数据后，使用pandas读取数据文件得到下图格式：

数据标签

处理后的赛题训练数据如下：
在数据集中标签的对应的关系如下：{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}

评测指标

评价标准为类别f1_score的均值，f1_score评分指标是分类模型的一个评分标准，他兼顾了精确率和召回率，值越大越好！

数据读取

我使用Numpy、Pandas库完成数据读取操作和分析。

解题思路

赛题思路分析：新闻文本分类从本质是看，是一个文本分类问题，我们需要根据文本的字符进行分类，但是由于数据是匿名化了，都是一些数值表示，所以我们不能直接使用中文分词的操作，这个对我们的建模有一定的影响。从向这里出发，我们是要对匿名字符进行建模，但是匿名字符按照个人理解应该是已经分好的词，然后匿名字符就是每个词在全词字典中的序号。所以从这里出发我们可以从词频统计出发，当然也可以使用fasttext进行分类。如果是从常规的机器学习建模流程，我们需要对其中数据进行特征处理，然后再建立分类模型。在这里我选择使用fasttext进行建立模型。由于以前接触过fasttext的建模并参考了datawhale学习小组提出的方案思路。
fasttext建立模型只需要把lable和数据准备好，然后直接调用fasttext的监督学习方法进行建模，能更快速建立模型，看到效果。