天池:新闻文本分类-NLP实践Note-02

这篇博客通过Pandas分析了天池新闻文本数据,包括句子长度、新闻类别分布和字符统计。发现‘股票’类新闻最多,字符‘3750’出现最频繁,平均每篇新闻约80个句子,字符个数平均为904。同时指出类别不均衡可能影响模型精度,建议优化数据集并考虑停用词过滤。
摘要由CSDN通过智能技术生成

学习目标

  • 使用Pandas读取数据
  • 分析数据分布规律

数据读取

Pandas读取数据 train_text,这里为了方便只选取了其中1000条数据。

import pandas as pd
train_df = pd.read_csv('/Users/apple/Downloads/LZY/Datawhale/2020年7月nlp实战组队/dataset/训练集/train_set.csv', sep='\t', nrows=1000)
train_df.head()

在这里插入图片描述

数据分析

句子长度分析

train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

在这里插入图片描述
句子长度的直方图可视化:

import matplotlib.pyplot as plt

_ = plt.hist(train_df['
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值