【NLP】新闻文本分类 ----数据读取及分析

最新推荐文章于 2023-01-28 21:16:02 发布

阿门阿前葡萄树

最新推荐文章于 2023-01-28 21:16:02 发布

阅读量943

点赞数 2

本文链接：https://blog.csdn.net/heanglaxinyi/article/details/107525358

版权

【NLP】新闻文本分类

- 文本分析

在上一节中，进行读取完成数据集后，还可以对数据集进行数据分析的操作。虽然对于非结构数据并不需要做很多的数据分析，但通过数据分析还是可以找出一些规律。

此步骤我们读取了所有的训练集数据，在此我们通过数据分析希望得出以下结论：
赛题数据中，新闻文本的长度是多少？
赛题数据的类别分布是怎么样的，哪些类别比较多？
赛题数据中，字符分布是怎么样的？

文本分析

句子分布分析

观察可以发现，每行句子的字符使用空格进行隔开，统计句子长度及其长度的统计分布情况：

from matplotlib import pyplot as plt
%matplotlib inline
raw_data['text_len'] = raw_data.text.apply(lambda x:len(x.split(' ')))    #统计列中每个句子的字数
print(raw_data['text_len'].describe())

plt.hist(raw_data.text_len,bins = 200)
plt.xlabel('text char length')
plt.title('Histogram of Char Length')
plt.show()


raw_data['text_len'].plot.box(title="Boxplot of Char Length")
plt.grid(linestyle="--"