跟我一起零基础入门NLP(实战项目 : 新闻文本分类)1.赛题理解

4 篇文章 0 订阅
4 篇文章 0 订阅

本文是零基础入门NLP - 新闻文本分类的第一篇作业,定位是对赛题的精简和解题思路开拓。
文章思维导图

读题

任务

新闻文本分类

数据解析

  • 赛题数据为新闻文本,并按照字符级别进行匿名处理。
  • 数据类别为14种:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
  • 数据量:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

模型评价

评价标准为类别 F 1 − s c o r e F1-score F1score的均值,可以用sklearn.metrics.f1_score 计算。

难点

本次赛题的难点是需要对匿名字符进行建模,进而完成文本分类的过程。

解题思路

数据挖掘

特征工程

1.字符出现次数

2.N个或者若干个字符出现

密码学

1.使用密码学知识,把匿名字符解码出中文,然后在中文基础上进行文本分类。

2.根据数据类型推测出数据来源,然后去数据网站来源进行数据爬取。

参考:

有余力的话朝这个方向去试试,算是乐趣,主要学习目的还是掌握机器学习模型的应用。

模型应用

四个思路的参考资料和梳理。

  • TF-IDF + 机器学习分类器
  • FastText
  • WordVec + 深度学习分类器
  • Bert词向量

最终目的

学会如何处理文本分类的问题,熟悉常用的机器学习方法。

TIPS

数据下载🔗链接

训练集:https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip

测试集:https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip

结果提交:https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a_sample_submit.csv

参考

Datawhale零基础入门NLP赛事 - Task1 赛题理解

比赛官方地址

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值