- 文本数据分析的作用
- 可以有效的帮助我们理解数据语料,快速检查出语料可能存在的问题,并指导之后模型训练过程中一些超参数的选择。
目录
1 标签数量分布
- 获得训练集和验证集的标签数量分布
# 导入必备的包
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
# 设置显示风格
plt.style.use('fivethirtyeight')
# 分别读取训练tsv和验证tsv
train_data = pd.read_csv("train.csv")
test_data = pd.read_csv("test.csv")
# 获得训练数据标签数量分布
sns.countplot("label", data = train_data)
plt.title("train_data")
plt.show()
# 获取验证数据标签数量分布
sns.countplot("label", data = test_data)
plt.title("test.csv")
plt.show()