Datawhale零基础入门NLP赛事 - Task1 赛题理解

最新推荐文章于 2023-02-08 16:58:11 发布

sunidol

最新推荐文章于 2023-02-08 16:58:11 发布

阅读量186

点赞数

分类专栏： NLP学习文章标签：机器学习深度学习 NLP 文本分类

本文链接：https://blog.csdn.net/my_kingdom/article/details/107498760

版权

NLP学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

赛题：零基础入门入门NLP赛事-新闻文本分类
比赛地址：https://tianchi.aliyun.com/competition/entrance/531810/introduction*

1.1 赛题理解

1.1.1赛题数据

本赛题数据为匿名处理后的新闻文本数据，按照字符级进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐。
赛题数据由以下几个部分构成：
训练集20w样本，测试集A包含5w样本，测试集B包含5w样本。

1.1.2赛题标签

匿名处理的训练数据如下：
训练集数据
数据集中标签啊的对应关系如下：
{‘科技’:0, ‘股票’:1, ‘体育’:2, ‘娱乐’:3, ‘时政’:4, ‘社会’:5, ‘教育’:6, ‘财经’:7, ‘家居’:8, ‘游戏’:9, ‘房产’:10, ‘时尚’:11, ‘彩票’:12, ‘星座’:13 }

1.1.3评测指标

评价标准为类别f1_score的均值，结果越大越好。
计算公式：
$\frac{ (precision+recall)}{ (precision∗recall)}$

这里使用了机器学习里面常用的一个评价分类模型的方法F1-score。这里面precision表示准确率，recall表示召回率:
$\frac{TP}{FP+TP} $
$\frac{TP}{TP+FN}$

1.1.4解题思路

本题本质上是一个文本分类的问题，需要根据每句的字符进行分类。但赛题给出的数据是匿名化的，不能直接使用中文分词等操作。这个是赛题的难点。
因此本次萨艾提的难点是需要对匿名化的字符进行建模，进而完成文本分类的过程。由于本文数据是一种典型的非结构化数据，因此会涉及到特征提取和分类模型。可以从以下几个方向解题：
1、思路一：TF-IDF + 机器学习
直接使用TF-IDF对文本提取特征，并使用分类器进行分类。分类器可以使用SVM、LR、随机森林、贝叶斯等传统机器学习方法
2、思路二：FastText
FastText是入门款的词向量，利用Facebook提供的FastText工具可以坤叔构建分类器。
3、思路三：word2vec+深度学习分类器
word2vec是进阶款的词向量，并通过构建深度学习分类完成分类。深度学习分类的网络结构可以学着TextCNN、TextRNN或者BiLSTM。
4、思路四：Bert词向量
Bert是高配款的词向量，具有强大的数学建模能力。

sunidol

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale零基础入门NLP赛事 - Task1 赛题理解

赛题：零基础入门入门NLP赛事-新闻文本分类比赛地址：https://tianchi.aliyun.com/competition/entrance/531810/introduction*1.1 赛题理解1.1.1赛题数据本赛题数据为匿名处理后的新闻文本数据，按照字符级进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐。赛题数据由以下几个部分构成：训练集20w样本，测试集A包含5w样本，测试集B包含5w样本。1.1.
复制链接

扫一扫