新闻分类大赛task2

文本长度

昨天错误以为文本格式为list,,直接使用len()函数对text进行长度计算。
今天才发现就是普通文本格式“3 24 53”,需要使用split函数进行切分求长度。
在这里插入图片描述
20万条新闻数据,平均长度为987,最长57921,最短为2,长度分布不太均匀。初步判断为长文本分类。

类别分布

利用pandas数据透视,分析每个Label数据量。

table = pd.pivot_table(train_df,index=['label'],aggfunc='count')
print(table)

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值