学习目标
- 使用Pandas读取数据
- 分析数据分布规律
数据读取
Pandas读取数据 train_text
,这里为了方便只选取了其中1000条数据。
import pandas as pd
train_df = pd.read_csv('/Users/apple/Downloads/LZY/Datawhale/2020年7月nlp实战组队/dataset/训练集/train_set.csv', sep='\t', nrows=1000)
train_df.head()
数据分析
句子长度分析
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())
句子长度的直方图可视化:
import matplotlib.pyplot as plt
_ = plt.hist(train_df['