在上一节中,进行读取完成数据集后,还可以对数据集进行数据分析的操作。虽然对于非结构数据并不需要做很多的数据分析,但通过数据分析还是可以找出一些规律。
此步骤我们读取了所有的训练集数据,在此我们通过数据分析希望得出以下结论:
赛题数据中,新闻文本的长度是多少?
赛题数据的类别分布是怎么样的,哪些类别比较多?
赛题数据中,字符分布是怎么样的?
文本分析
句子分布分析
观察可以发现,每行句子的字符使用空格进行隔开,统计句子长度及其长度的统计分布情况:
from matplotlib import pyplot as plt
%matplotlib inline
raw_data['text_len'] = raw_data.text.apply(lambda x:len(x.split(' '))) #统计列中每个句子的字数
print(raw_data['text_len'].describe())
plt.hist(raw_data.text_len,bins = 200)
plt.xlabel('text char length')
plt.title('Histogram of Char Length')
plt.show()
raw_data['text_len'].plot.box(title="Boxplot of Char Length")
plt.grid(linestyle="--"