在一个数据集中,每个特征都有自己一定的等级,按照可执行的数学操作,从低到高可以分为四个等级
1:nominal level。这属于分类数据,只是表示一下分类而已。 不能进行加法、减法、平均等操作。这类数据比如名字,动物种类等。 pandas中有一个Series_Object.value_counts()可以统计这类属性中值的多少。统计完之后,可以使用条形图或者饼图,然后画出各种值的多少情况。
2:ordinal level。 依然属于分类数据,它可以用字符串表示,也可以用数字来表示,在pandas中可以使用astype来进行转换。在餐馆的评分数据当中,有1到5个数据,这些数据是用数字表示的,但是它依然是分类数据。 ordinal数据可以进行排序,从而可以计算中位数和分位数。ordinal的数据有按照A、B、C、D、E给学生成绩评级。 我们可以使用 条形图、饼图,还有线箱图来观察这类数据。这里有一个问题:在餐馆评分数据当中我们甚至可以计算平均数,那么这个数据还是分类数据吗?
上面两种类型都属于分类数据,它们并不表示一个真正的数值,只是表示一种分类的情况而已。
3:interval level。 这属于带有间隔的数值类型。它和上面两类已经有了质的不同,它属于数值类型的数据。interval类型是可以进行加减操作的。在加减操作的基础上,我们可以求出数据的均值和方差。对于interal类型数据的观察,可以使用直方图,两个interval变