Datawhale - 入门NLP之新闻文本分类 - task2 数据分析

最新推荐文章于 2022-12-06 16:17:16 发布

何小义的AI进阶路

最新推荐文章于 2022-12-06 16:17:16 发布

阅读量378

点赞数

分类专栏： datawhale 自然语言处理 python 文章标签：自然语言处理数据分析数据挖掘

本文链接：https://blog.csdn.net/hzy459176895/article/details/107498890

版权

python 同时被 3 个专栏收录

22 篇文章 0 订阅

订阅专栏

datawhale

8 篇文章 1 订阅

订阅专栏

自然语言处理

4 篇文章 1 订阅

订阅专栏

PS. 前面已经学习记录了： Datawhale - 入门NLP之新闻文本分类 - task1 赛题理解

今天继续学习记录：task2 数据分析，主要是对巡检集的数据进行分析，统计，了解数据整体的分布情况！

1 竞赛数据来源

竞赛数据来源，进入天池实验室 -- “零基础入门NLP - 新闻文本分类”： https://tianchi.aliyun.com/competition/entrance/531810/information，然后点击报名参赛，再点击“赛题与数据”，即可下载数据了。

数据下载完成后，按照csv中指定路径再去下载训练集，测试集，和需要提交的数据样式。

2 训练集数据分析

（1）读取数据

''' 读取训练集，空格符分割，前20行 '''
import pandas as pd
train_df = pd.read_csv('data/train_set.csv', sep='\t', nrows=20)
print(train_df)

这里读取了训练集的前20行，从下面打印结果可以看到，数据集一共两列，第一列是label，第二列是text新闻文本数据，以空格隔开（比赛官方已经将文本数据每个字符进行处理过了）。

（2）句子长度分析

接下来，我们将训练集所有读入，来分析训练每一行（即每个样本的句子）综合的一些句子长度统计分析：

''' 将text进行空格分割开，统计每一行的字符数量，给到text_len列 '''
import pandas as pd
train_df = pd.read_csv('data/train_set.csv', sep='\t')
print(train_df.shape)  # 行/列数
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df.head(20))

从下面打印结果，可以看到，训练集一共20w行，两列。然后再为df新增一列‘text_len’表示每一行的字符数：

继续对‘text_len’进行分析，整体把握训练集的样本字符数情况：

''' 查看text_len列的详情统计描述'''
print(train_df['text_len'].describe())

从下面打印结果可以看到，每个句子平均由907个字符构成，最短的句子长度为2，最长的句子长度为57921等统计信息：

再继续讲句子长度信息，绘制直方图：

''' 每一个文本长度的数据直方图统计 '''
import matplotlib.pyplot as plt
_ = plt.hist(train_df['text_len'], bins=200)
plt.xlabel('Text char count')
plt.title("Histogram of char count")
plt.show()  # 显示图片

从直方图结果，结合分析，可以得知，大部分句子的长度都集中在2000以内：

（3）新闻句子的类别统计情况

下面对训练集中样本的所有类进行统计，看分布情况如何：

''' 所有类别统计情况 '''
import matplotlib.pyplot as plt
train_df['label'].value_counts().plot(kind='bar')
plt.title('News class count')
plt.xlabel("category")
plt.show()  # 显示图片

从结果，可以看出：赛题的数据集类别分布存在较为不均匀的情况。在训练集中科技类新闻最多，其次是股票类新闻，最少的新闻是星座新闻。（注：task1中已经解释过，类别对应关系分别为：{'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏': 9, '房产': 10, '时尚': 11, '彩票': 12, '星座': 13}）

（4）所有样本中，字符类别和数量统计：

前面统计过样本中字符的数量情况（注：由于全部统计单机有点卡，这里我取了1w条数据样本），下面进行统计每一种字符类别和对应数量的一个关系情况：

''' 统计所有训练集中 所有词，出现次数最多的词，出现次数最少的词 '''
from collections import Counter
all_lines = ' '.join(list(train_df['text']))  # 将每一行text再以空格，连起来
word_count = Counter(all_lines.split(" "))  # 统计数字和出现次数
# 每一个字符和它出现的次数，组成元组，按照由多到少排序
word_count = sorted(word_count.items(), key=lambda d: d[1], reverse=True)
print(len(word_count))  # 总共字符类别有多少种
print(word_count[0])  # 统计最多的字符类别
print(word_count[-1])  # 统计最少的字符类别

从打印结果可以看出：在抽样的1w条样本句子统计中，一共去重后5340个字符，3750的字符最多，6577的字符最少。

实际上，这里还可以根据字在每个句子的出现情况，反推出标点符号。经官方统计，20w所有样本中：其中字符3750，字符900和字符648在20w新闻的覆盖率接近99%，很有可能是标点符号。

3 数据分析结论

经对训练集的各种统计，可以得出如下结论：

（1）赛题中每个新闻包含的字符个数平均为1000个，还有一些新闻字符较长；

（2）赛题中新闻类别分布不均匀，科技类新闻样本量接近4w，星座类新闻样本量不到1k；

（3）赛题总共包括7000-8000个字符；

（4）每个新闻平均字符个数较多，可能需要截断；

（5）由于类别不均衡，会严重影响模型的精度；

4 扩展分析

（1）假设前面说的字符3750，字符900和字符648是句子的标点符号，请分析赛题每篇新闻平均由多少个句子构成？

# 统计没有标点的句子数 (按照标点进行split，剩下的就是句子) ####################
import re
import pandas as pd
train_df = pd.read_csv('data/train_set.csv', sep='\t')
train_df['juzi_len'] = train_df['text'].apply(lambda x: len(re.split('3750|900|648', x)))
print(train_df['juzi_len'].describe())

运行结果来看，平均句子数为：80.802370

（2）统计每类新闻中出现次数最多的字符。

''' 统计每类新闻中出现次数最多的字符 '''
import pandas as pd
from collections import Counter
train_df = pd.read_csv('data/train_set.csv', sep='\t')
# 同一类的拼接到一起
for i in range(0, 14):
    df = train_df[train_df['label'] == i]['text']
    all_lines = ' '.join(list(df))  # 将每一行text再以空格，连起来
    word_count = Counter(all_lines.split(" "))  # 统计数字和出现次数
    word_count = sorted(word_count.items(), key=lambda d: d[1], reverse=True)  # 排序
    print(i, word_count[0])

我们发现运行结果如下：

因此，还是需要去掉标点符号再统计！！！！！！！！！！！

新的实现如下：

''' 统计每类新闻中出现次数最多的字符 '''
import pandas as pd
from collections import Counter
train_df = pd.read_csv('data/train_set.csv', sep='\t')
# 同一类的拼接到一起
for i in range(0, 14):
    df = train_df[train_df['label'] == i]['text']
    bioadian = ['3750', '900', '648']
    df_2 = df.apply(lambda x: [i for i in x.split(' ') if i not in bioadian])
    all_lines = str(df_2.values.tolist())
    word_count = Counter(all_lines.split(" "))  # 统计数字和出现次数
    word_count = sorted(word_count.items(), key=lambda d: d[1], reverse=True)  # 排序
    print(i, word_count[0])  # 新闻类，次数最多的字符及次数

最后运行结果：