零基础入门NLP之新闻文本分类_赛题理解_学习笔记


Author: 2tong

Ref: 零基础入门NLP之新闻文本分类


基本信息
1. 赛题目标

接触NLP的预处理模型构建模型训练等知识点

2. 赛题任务

以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。

3. 赛题数据
3.1 数据大小
  • train set:20w条样本
  • test_A set:5w条样本
  • test_B set:5w条样本
3.2 数据格式

为了预防选手人工标注测试集的情况,比赛数据的文本按照字符级别进行了**匿名处理*8,处理后的赛题训练数据如下所示:

label text
2 2967 6758 339 2021 1854 3731 4109 3792 4149 1519 2058 3912 2465 2410 1219 6654 7539 264 2456 4811 1292 2109 6905 5 520 7058 6045 3634 6591 3530 6508 2465 7044 1519 3659 2073 3750 3731 4109 3792 6831 2614 3370 4269 3370 486 5770 4109 4125 3750 5445 2466 6831 6758 3743 3630 1726 2313 5906 826 4516 657 900 1871 7044 3750 2967 3731 1757

在数据集中,标签的对应的关系如下所示:

{
   
	'科技': 0,
	'股票': 1,
	'体育': 2,
	'娱乐': 3,
	'时政': 4,
	'社会': 5,
	'教育': 6,
	'财经': 7,
	'家居': 8,
	'游戏': 9,
	'房产': 10,
	'时尚': 11,
	'彩票': 12,
	'星座': 13
}
解题思路
1.赛题本质

文本分类问题,需要根据每句的字符进行分类

2.赛题难点

赛题给出的数据是匿名化的,需要对匿名字符进行建模,进而完成文本分类的过程

3.赛题指标

评价标准为类别f1_score的均值,提交结果与实际测试集的类别进行对比,结果越大越好。

4.赛题分析

文本数据是一种典型的非结构化数据,因此可能涉及到特征提取分类模型两个部分。
提供了如下四种解决思路:

  • 思路1:TF-IDF + 机器学习分类器
    • 特征提取:使用TF-IDF对文本提取特征
    • 分类模型:使用分类器进行分类,可以使用SVM、LR、或者XGBoost。
  • 思路2:FastText
    FastText作为入门款的词向量,是由Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。
  • 思路3:WordVec + 深度学习分类器
  • 词向量:Word2Vec(进阶款词向量)
  • 深度学习分类:通过构建深度学习分类完成分类,网络结构可以选择TextCNN、TextRNN或者BiLSTM。
  • 思路4:Bert词向量
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值