1、通过pandas的read_csv读取数据
#读取数据
import pandas as pd
train_df = pd.read_csv(r'Data/nlp/train_set.csv', sep='\t', nrows=100)
显示前5条数据
2、数据分析的三个目标:
- 赛题数据中,新闻文本的长度是多少?
- 赛题数据的类别分布是怎么样的,哪些类别比较多?
- 赛题数据中,字符分布是怎么样的?
句子长度分析
在赛题数据中每行句子的字符使用空格进行隔开,所以可以直接统计单词的个数来得到每个句子的长度。统计并如下:
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())