零基础入门NLP赛事-新闻文本分类记录 task2

  1. 数据处理
    train集合240M+,test集合60M+,并不大直接用pandas读入即可。可以看到数据格式如下,label列是新闻的类别,text列是新闻的字符。二者均为数值型。
    数据格式
    可以看成,还需要处理一下分隔符。应该改为:
df_train = pd.read_csv("./data/train_set.csv",sep='\t')

那么接下来,我们应该对数据的分布有所分析。比如文本长度分布,数据类别分布,字符分布情况。
文本长度分布(即句子长度)如下,平均一个句子907个字符,最长57921字,大部分长度在2000以内。sen_len
新闻类别分布:可见存在类别分布不均的问题,科技类新闻样本最多,星座类最少。
newclass字符分布:
将所有句子进行拼接然后划分字符,统计每个字符的个数。可以查看出总共6869个字,编号3750的字出现的次数最多,编号3133的字出现最少。

from collections import Counter
all_l = ' '.join(list(df_train['text']))
word_c = Counter(all_l.split(" "))
word_c =sorted(word_c.items(),key=lambda d:d[1], reverse =True)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值