NLP赛事--S1赛题理解


对新闻文本分类进行赛题理解,对赛题数据进行说明,并给出解题思路;
赛题名称:零基础入门NLP之新闻文本分类
赛题目标:通过这道简单入门级赛题走入NLP比赛,接触NLP的预备,模型构建和模型训练等。
赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,是一个典型的字符识别问题。

1 基本概念

1.1 赛题数据

  • 赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见垂直下载。赛题数据为新闻文本,并按照字符等级进行匿名处理。 ,物业,股票,家居,教育,科技,社会,时尚,时政,体育,星座,游戏,娱乐的文本数据。
  • 赛题数据由以下几个部分组成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。等级进行了匿名处理。

1.2 数据标签

处理后的赛题训练数据如下:

在数据集中标签的对应的关系如下:{‘科技’:0,‘股票’:1,‘体育’:2,‘娱乐’:3,‘时政’:4,‘社会’:5,‘教育’ :6,“财经”:7,“家居”:8,“游戏”:9,“房产”:10,“时尚”:11,“彩票”:12,“星座”:13}
上个表格代表:是教育类新闻文本。

1.3 数据读取

使用pandas包完成对数据读取操作,逐步赛题数据进行分析。

1.4 常规解题思路

【赛题难点分析:】赛题本质是一个文本分类问题,需要根据每句的字符进行分类。但赛题提示的数据是匿名化的,不能直接使用中文分词等操作,这个是赛题的难点。
*因此本次赛题的难点是需要对匿名字符进行建模,并且完成文本分类的过程。由于文本数据是一种典型的非结构化数据,因此可能涉及到特征提取和分类模型两个部分。我们提供了一些解题思路供大家参考:

  • 思路一:TF-IDF +机器学习分类器
    直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM,LR,或者XGBoost。
  • 思路二:快速入门
    FastText是入门款的词向量,利用Facebook提供的FastText工具,可以快速构建出分类器。直接调用,是最容易入门使用的;
  • 思路三:WordVec+深度学习
    WordVec是进阶阶款的词向量,并通过扩展深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN,TextRNN或BiLSTM。
  • 思路四:Bert词向量
    Bert是高配款的词向量,具有强大的建模学习能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值