NLP学习2-数据读取与数据分析
一,数据读取
下载数据
1.train_set.csv.zip
2.test_a.csv.zip
3.test_a_sample_submit.csv
读取数据
import pandas as pd
train_df = pd.read_csv('/home/jun/NLP/input/train_set.csv', sep='\t', nrows=100)
数据路径我使用的是绝对路径,nrows值设小一点,太大会卡电脑
二,数据分析
1.句子长度分析
%pylab inline
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())
可以看到
2.新闻类别分布
train_df['label'].value_counts().plot(kind='bar')
plt.title('News class count')
plt.xlabel("category")