零基础入门NLP - 新闻文本分类(二、数据理解和特征分析)

最新推荐文章于 2022-04-22 12:56:26 发布

FunYoung0407

最新推荐文章于 2022-04-22 12:56:26 发布

阅读量474

点赞数

分类专栏： NLP 文章标签： python

本文链接：https://blog.csdn.net/a6368533/article/details/107523803

版权

本文深入分析了新闻文本分类的数据，包括句子长度、字符分布和类别分布。平均句子长度约为900个字符，字符3750、900和648疑似标点符号，类别分布不均，科技类最多，星座类最少。

摘要由CSDN通过智能技术生成

在第一篇赛题理解中已经进行了数据读取，接下来直接进行数据分析。
目前能想到的问题有三个：

接下来针对三个问题进行分析。

一、句子长度分析

%pylab inline
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

Populating the interactive namespace from numpy and matplotlib

count 100.000000

mean 872.320000

std 923.138191

min 64.000000

25% 359.500000

50% 598.000000

75% 1058.000000

max 7125.000000

Name: text_len, dtype: float64

从上表可知，mean为均值，长度大概在900左右

_ = plt.hist(train_df['text_len'], bins=200)
plt.xlabel('Text char count')
plt.title("Histogram of char count")

句子长度直方图
通过直方图可以发现，句子长度普遍不大于2000.

先将训练集中所有的句子进行拼接进而划分为字符，并统计每个字符的个数。

from collections import Counter
all_lines = ' '.join(list(train_df[

关注

专栏目录