零基础入门NLP - 新闻文本分类(二、数据理解和特征分析)

本文深入分析了新闻文本分类的数据,包括句子长度、字符分布和类别分布。平均句子长度约为900个字符,字符3750、900和648疑似标点符号,类别分布不均,科技类最多,星座类最少。
摘要由CSDN通过智能技术生成

在第一篇赛题理解中已经进行了数据读取,接下来直接进行数据分析。
目前能想到的问题有三个:

  1. 文本长度是多少?
  2. 字符分布情况?
  3. 类别分布情况?

接下来针对三个问题进行分析。

一、句子长度分析

%pylab inline
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

Populating the interactive namespace from numpy and matplotlib

count 100.000000

mean 872.320000

std 923.138191

min 64.000000

25% 359.500000

50% 598.000000

75% 1058.000000

max 7125.000000

Name: text_len, dtype: float64

从上表可知,mean为均值,长度大概在900左右

_ = plt.hist(train_df['text_len'], bins=200)
plt.xlabel('Text char count')
plt.title("Histogram of char count")

句子长度直方图
通过直方图可以发现,句子长度普遍不大于2000.

二、字符分布情况

先将训练集中所有的句子进行拼接进而划分为字符,并统计每个字符的个数。

from collections import Counter
all_lines = ' '.join(list(train_df[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值