【NLP】新闻文本分类 ----数据读取及分析

在上一节中,进行读取完成数据集后,还可以对数据集进行数据分析的操作。虽然对于非结构数据并不需要做很多的数据分析,但通过数据分析还是可以找出一些规律。

此步骤我们读取了所有的训练集数据,在此我们通过数据分析希望得出以下结论:
赛题数据中,新闻文本的长度是多少?
赛题数据的类别分布是怎么样的,哪些类别比较多?
赛题数据中,字符分布是怎么样的?

文本分析

句子分布分析

观察可以发现,每行句子的字符使用空格进行隔开,统计句子长度及其长度的统计分布情况:

from matplotlib import pyplot as plt
%matplotlib inline
raw_data['text_len'] = raw_data.text.apply(lambda x:len(x.split(' ')))    #统计列中每个句子的字数
print(raw_data['text_len'].describe())

plt.hist(raw_data.text_len,bins = 200)
plt.xlabel('text char length')
plt.title('Histogram of Char Length')
plt.show()


raw_data['text_len'].plot.box(title="Boxplot of Char Length")
plt.grid(linestyle="--"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值