文本长度
昨天错误以为文本格式为list,,直接使用len()函数对text进行长度计算。
今天才发现就是普通文本格式“3 24 53”,需要使用split函数进行切分求长度。
20万条新闻数据,平均长度为987,最长57921,最短为2,长度分布不太均匀。初步判断为长文本分类。
类别分布
利用pandas数据透视,分析每个Label数据量。
table = pd.pivot_table(train_df,index=['label'],aggfunc='count')
print(table)