天池新闻文本分类——数据读取与数据分析

最新推荐文章于 2022-09-21 18:59:38 发布

VIP文章 nuoyi0618

最新推荐文章于 2022-09-21 18:59:38 发布

阅读量878

点赞数

分类专栏： NLP实践文章标签： nlp

本文链接：https://blog.csdn.net/nuoyi0618/article/details/107516448

版权

数据读取

赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。

import pandas as pd
train_df = pd.read_csv('data/train_set.csv', sep='\t', nrows=100)

read_csv由三部分构成：
读取的文件路径，这里需要根据改成你本地的路径，可以使用相对路径或绝对路径；
分隔符sep，为每列分割的字符，设置为\t即可；
读取行数nrows，为此次读取文件的函数，是数值类型（由于数据集比较大，建议先设置为100）；
在这里插入图片描述
上图为读取好的数据，是表格的形式。第一列为新闻的类别，第二列为新闻的字符。

数据分析

此步骤我们读取了所有的训练集数据，在此我们通过数据分析希望得出以下结论：

赛题数据中，新闻文本的长度是多少？
赛题数据的类别分布是怎么样的，哪些类别比较多？
赛题数据中，字符分布是怎么样的？

句子长度分析

在赛题数据中每行句子的字符使用空格进行隔开，所以可以直接统计单词的个数来得到每个句子的长度。统计并如下：

train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

输出结果为
在这里插入图片描述

对新闻句子的统计可以得出，本次赛题给定的文本比较长，每个句子平均由907个字符构成，最短的句子长度为2，最长的句子长度为57921。

下图将句子长度绘制了直方图，可见大部分句子的长度都几种在2000以内。

import matplotlib.pyplot as plt

_ = plt.hist(train_df['text_len'], bins=200

最低0.47元/天解锁文章

nuoyi0618

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
天池新闻文本分类——数据读取与数据分析

目录数据读取数据分析句子长度分析新闻类别分布字符分布统计数据分析的结论作业数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('data/train_set.csv', sep='\t', nrows=100)read_csv由三部分构成：读取的文件路径，这里需要根据改成你本地的路径，可以使用相对路径或绝对路径；分隔符sep，为每列分
复制链接

扫一扫