新闻分类大赛赛题分析

最新推荐文章于 2022-09-05 22:15:33 发布

我是飞行模式

最新推荐文章于 2022-09-05 22:15:33 发布

阅读量190

点赞数

分类专栏：新闻分类比赛学习文章标签：机器学习 nlp 人工智能

本文链接：https://blog.csdn.net/u012302260/article/details/107491785

版权

新闻分类比赛学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

@新闻分类大赛赛题分析

本文对天池新闻文本分类比赛进行赛题分析。

1 数据格式

训练集为csv格式文件，使用pandas读取前十行，结果如图。

import pandas as pd
train_df = pd.read_csv(r'train_set.csv', sep='\t')
print(len(train_df))
print(train_df.head(10))

数据示例
训练集一共20万条数据。
数据集中标签label的对应的关系如下：{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}
训练文本text做了匿名处理，文字均用数字替代。

2 数据类别分布

利用pandas数据透视，分析每个Label数据量。

table = pd.pivot_table(train_df,index=['label'],aggfunc='count')
print(table)

结果如图：
数据分布
最多的科技类文本有38918条数据，占据总数据19.5%。而最少的星座类，只有908条数据。
数据不是太均衡，在后续操作中可以适当注意下。

3 文本长度

然后分析每条新闻的长度。

train_df['text_len'] = train_df['text'].str.len()
#增加一列"text_len"，计算text长度
col_mean = train_df[["text_len"]].mean()
col_mean["label"]="mean"
#增加一行，计算长度均值
col_max = train_df[["text_len"]].max()
col_max["label"]="max"
#增加一行，计算长度最大值
col_min = train_df[["text_len"]].min()
col_min["label"]="min"
#增加一行，计算长度最小值
train_df=train_df.append(col_mean,ignore_index=True)
train_df=train_df.append(col_max,ignore_index=True)
train_df=train_df.append(col_min,ignore_index=True)
print(train_df.tail(6))
#输出最后6行