【NLP】天池新闻文本分类（二）——数据读取与数据分析

最新推荐文章于 2023-10-16 13:23:22 发布

阿黄一号

最新推荐文章于 2023-10-16 13:23:22 发布

阅读量953

点赞数 1

文章标签：自然语言处理机器学习神经网络深度学习数据分析

本文链接：https://blog.csdn.net/u011961803/article/details/107507796

版权

本文通过Pandas库对天池新闻文本分类挑战赛数据进行读取与分析，发现数据集较大，每篇新闻平均907个字符，最长57921个。类别分布不均，科技类最多，星座类最少。字符'3750'等可能是标点符号，平均每篇新闻包含81个句子。需注意新闻字符截断和类别不平衡问题。

摘要由CSDN通过智能技术生成

前言

NLP之新闻文本分类挑战赛（赛题链接）。
其实上一篇赛题理解时已经做了数据读取和分析，因为一般在分析之后才对题目有初步理解。但为了流程完整性，还是做一篇独立的数据读取与分析，采用Pandas库实现。

使用Pandas库完成数据读取操作：

#导入包
import pandas as pd
train_df = pd.read_csv('./data/训练集数据/train_set.csv',sep='\t',nrows=100)

这里使用到的read_csv由三部分构成：
1.读取文件路径；
2.分隔符sep,为每列分割的字符，本赛题存储的数据分隔符为\t；
3.读取行数nrows,由于数据集比较大，可以先设置为100预览。
读取完后可以浏览下数据：

#预览数据
train_df.head()

在这里插入图片描述
上图是读取好的数据，是表格形式。第一列（label）为新闻的类别，第二列（text）为新闻的字符。

使用Pandas库分析赛题数据的分布规律。
1.数据整体情况：

train_df = pd.read_csv('./data/训练集数据/train_set.csv',sep='\t')
train_df.info()

在这里插入图片描述

train_df.describe()

关注