特征的四个等级 即特征的分类

数据集中的特征根据可执行的数学操作分为nominal、ordinal、interval和ratio四个等级。nominal和ordinal属于分类数据,不可进行数值计算,但可排序;interval数据允许加减,能计算均值和方差;ratio数据是最高等级,有真零点,可进行乘除。餐馆评分虽然看似可加减,但在数据分析中通常视为分类数据。
摘要由CSDN通过智能技术生成

在一个数据集中,每个特征都有自己一定的等级,按照可执行的数学操作,从低到高可以分为四个等级

1:nominal level。这属于分类数据,只是表示一下分类而已。 不能进行加法、减法、平均等操作。这类数据比如名字,动物种类等。 pandas中有一个Series_Object.value_counts()可以统计这类属性中值的多少。统计完之后,可以使用条形图或者饼图,然后画出各种值的多少情况。

2:ordinal level。 依然属于分类数据,它可以用字符串表示,也可以用数字来表示,在pandas中可以使用astype来进行转换。在餐馆的评分数据当中,有1到5个数据,这些数据是用数字表示的,但是它依然是分类数据。 ordinal数据可以进行排序,从而可以计算中位数和分位数。ordinal的数据有按照A、B、C、D、E给学生成绩评级。 我们可以使用 条形图、饼图,还有线箱图来观察这类数据。这里有一个问题:在餐馆评分数据当中我们甚至可以计算平均数,那么这个数据还是分类数据吗?


上面两种类型都属于分类数据,它们并不表示一个真正的数值,只是表示一种分类的情况而已。

3:interval level。 这属于带有间隔的数值类型。它和上面两类已经有了质的不同,它属于数值类型的数据。interval类型是可以进行加减操作的。在加减操作的基础上,我们可以求出数据的均值和方差。对于interal类型数据的观察,可以使用直方图,两个interval变

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值