零基础入门NLP - 新闻文本分类比赛方案分享 nano- Rank1

最新推荐文章于 2024-05-23 10:06:57 发布

阿里云天池

最新推荐文章于 2024-05-23 10:06:57 发布

阅读量723

点赞数 4

文章标签：自然语言处理分类人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gangyikeji/article/details/137555441

版权

nano- 康一帅

简介

环境

Tensorflow == 1.14.0
Keras == 2.3.1
bert4keras == 0.8.4

文件说明

EDA：用于探索性数据分析。
data_utils：用于预训练语料的构建。
pretraining：用于Bert的预训练。
train：用于新闻文本分类模型的训练。
pred：用于新闻文本分类模型的预测。

其他

数据集：下载地址（z8vl）
预训练语料：下载地址（72ml）
预训练模型：下载地址（32b6）
代码开源地址：GitHub（欢迎大家star）

赛题分析

赛题背景

通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。

任务目标

要求选手根据新闻文本字符对新闻的类别进行分类，这是一个经典文本分类问题。

数据示例

enter image description here

文本长度

训练集共200,000条新闻，每条新闻平均907个字符，最短的句子长度为2，最长的句子长度为57921，其中75%以下的数据长度在1131以下。
测试集共50,000条新闻，每条新闻平均909个字符，最短句子长度为14，最长句子41861,75%以下的数据长度在1133以下。
训练集和测试集就长度来说似乎是同一分布。

标签分布

赛题的数据集类别分布存在较为不均匀的情况。在训练集中科技类新闻最多，其次是股票类新闻，最少的新闻是星座新闻。

总体思路

enter image description here

数据划分

使用StratifiedKFold交叉验证。StratifiedKFold能够确保抽样后的训练集和验证集的样本分类比例和原原始数据集基本一致。
利用全部数据，获得更多信息。
降低方差，提高模型性能。

查看本文全部内容，欢迎访问天池技术圈官方地址：零基础入门NLP - 新闻文本分类比赛方案分享 nano- Rank1_天池技术圈-阿里云天池

阿里云天池

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
零基础入门NLP - 新闻文本分类比赛方案分享 nano- Rank1

nano- 康一帅通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。要求选手根据新闻文本字符对新闻的类别进行分类，这是一个经典文本分类问题。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。