零基础入门NLP之新闻文本分类_赛题理解_学习笔记

最新推荐文章于 2020-07-28 00:37:09 发布

VIP文章 2tong杂货铺

最新推荐文章于 2020-07-28 00:37:09 发布

阅读量200

点赞数

分类专栏： NLP 文章标签： nlp

本文链接：https://blog.csdn.net/orange_612/article/details/107477764

版权

Author: 2tong

Ref: 零基础入门NLP之新闻文本分类

零基础入门NLP之新闻文本分类赛题理解学习笔记

基本信息

1. 赛题目标

接触NLP的预处理、模型构建和模型训练等知识点

2. 赛题任务

以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的字符识别问题。

3. 赛题数据

3.1 数据大小

train set：20w条样本
test_A set：5w条样本
test_B set：5w条样本

3.2 数据格式

为了预防选手人工标注测试集的情况，比赛数据的文本按照字符级别进行了**匿名处理*8，处理后的赛题训练数据如下所示：

label	text
2	2967 6758 339 2021 1854 3731 4109 3792 4149 1519 2058 3912 2465 2410 1219 6654 7539 264 2456 4811 1292 2109 6905 5 520 7058 6045 3634 6591 3530 6508 2465 7044 1519 3659 2073 3750 3731 4109 3792 6831 2614 3370 4269 3370 486 5770 4109 4125 3750 5445 2466 6831 6758 3743 3630 1726 2313 5906 826 4516 657 900 1871 7044 3750 2967 3731 1757

在数据集中，标签的对应的关系如下所示：

{
   
	'科技': 0,
	'股票': 1,
	'体育': 2,
	'娱乐': 3,
	'时政': 4,
	'社会': 5,
	'教育': 6,
	'财经': 7,
	'家居': 8,
	'游戏': 9,
	'房产': 10,
	'时尚': 11,
	'彩票': 12,
	'星座': 13
}

解题思路

1.赛题本质

文本分类问题，需要根据每句的字符进行分类

2.赛题难点

赛题给出的数据是匿名化的，需要对匿名字符进行建模，进而完成文本分类的过程

3.赛题指标

评价标准为类别f1_score的均值，提交结果与实际测试集的类别进行对比，结果越大越好。

4.赛题分析

文本数据是一种典型的非结构化数据，因此可能涉及到特征提取和分类模型两个部分。
提供了如下四种解决思路：

思路1：TF-IDF + 机器学习分类器
- 特征提取：使用TF-IDF对文本提取特征
- 分类模型：使用分类器进行分类，可以使用SVM、LR、或者XGBoost。
思路2：FastText
FastText作为入门款的词向量，是由Facebook开发的一款快速文本分类器，提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。
思路3：WordVec + 深度学习分类器
词向量：Word2Vec(进阶款词向量)
深度学习分类：通过构建深度学习分类完成分类，网络结构可以选择TextCNN、TextRNN或者BiLSTM。
思路4：Bert词向量

最低0.47元/天解锁文章

2tong杂货铺

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门NLP之新闻文本分类_赛题理解_学习笔记

Author: 2tongRef: 零基础入门NLP之新闻文本分类Task1 赛题理解学习笔记基本信息1. 赛题目标2. 赛题任务3. 赛题数据3.1 数据大小3.2 数据格式解题思路1.赛题本质2.赛题难点3.赛题指标4.赛题分析技术储备1.分类问题常用评价指标2.TF-IDF基本信息1. 赛题目标接触NLP的预处理、模型构建和模型训练等知识点2. 赛题任务以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的字符识别问题。3. 赛题数据3.1 数据大小train..
复制链接

扫一扫