如果要看某个字段包括哪些值,并且大概看看出现的频率有多少,该怎么实现呢?
比如以下数据扫了一眼是有问号的,那么就要把它们拎出来看看多不多,判断会不会对预测的结果产生影响。
语法是字段名.value_counts()
data['property_damage'].value_counts()
运行结果:
可见问号的占比是有点多的,它对于原数据而言可能就是缺失值,进行编码的时候要对它进行处理。
如果要看某个字段包括哪些值,并且大概看看出现的频率有多少,该怎么实现呢?
比如以下数据扫了一眼是有问号的,那么就要把它们拎出来看看多不多,判断会不会对预测的结果产生影响。
语法是字段名.value_counts()
data['property_damage'].value_counts()
运行结果:
可见问号的占比是有点多的,它对于原数据而言可能就是缺失值,进行编码的时候要对它进行处理。