对新闻文本分类进行赛题理解,对赛题数据进行说明,并给出解题思路;
赛题名称:零基础入门NLP之新闻文本分类
赛题目标:通过这道简单入门级赛题走入NLP比赛,接触NLP的预备,模型构建和模型训练等。
赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,是一个典型的字符识别问题。
1 基本概念
1.1 赛题数据
- 赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见垂直下载。赛题数据为新闻文本,并按照字符等级进行匿名处理。 ,物业,股票,家居,教育,科技,社会,时尚,时政,体育,星座,游戏,娱乐的文本数据。
- 赛题数据由以下几个部分组成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。等级进行了匿名处理。
1.2 数据标签
处理后的赛题训练数据如下:
在数据集中标签的对应的关系如下:{‘科技’:0,‘股票’:1,‘体育’:2,‘娱乐’:3,‘时政’:4,‘社会’:5,‘教育’ :6,“财经”:7,“家居”:8,“游戏”:9,“房产”:10,“时尚”:11,“彩票”:12,“星座”:13}
上个表格代表:是教育类新闻文本。
1.3 数据读取
使用pandas包完成对数据读取操作,逐步赛题数据进行分析。
1.4 常规解题思路
【赛题难点分析:】赛题本质是一个文本分类问题,需要根据每句的字符进行分类。但赛题提示的数据是匿名化的,不能直接使用中文分词等操作,这个是赛题的难点。
*因此本次赛题的难点是需要对匿名字符进行建模,并且完成文本分类的过程。由于文本数据是一种典型的非结构化数据,因此可能涉及到特征提取和分类模型两个部分。我们提供了一些解题思路供大家参考:
- 思路一:TF-IDF +机器学习分类器
直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM,LR,或者XGBoost。 - 思路二:快速入门
FastText是入门款的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器。直接调用,是最容易入门使用的; - 思路三:WordVec+深度学习
WordVec是进阶阶款的词向量,并通过扩展深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN,TextRNN或BiLSTM。 - 思路四:Bert词向量
Bert是高配款的词向量,具有强大的建模学习能力。