五、数据对象和属性类型

1.数据对象

数据集由数据对象组成一个数据对象代表一个实体。通常数据对象用属性描述,又称样本、实例或数据点。

  • 销售数据库中 :对象可以顾客、商品或销售;
  • 医疗数据库中,对象可以是医生或患者;
  • 大学数据库中,对象可以是学生、教授和课程;

2 属性的概念

属性是一个数据字段,表述数据对象的一个特征。通常情况下,属性、维、特征和变量表示的是同一个意思。

  1. 描述顾客对象的属性可能包括:customer_id,name和adress;
  2. 描述学生对象的属性可能包括:student_id,sname,score;
    一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的或数值的。

3 标称属性

标称属性的特点

  • 标称属性的值是一些符号或事物的名称。
  • 每个值代表某种类别、编码、状态,因此标称属性又被看做是分类的(categorical)。
  • 标称属性的值不具有有意义的序,而且不是定量的。(也就是说,给定一个对象集,找出这种属性的均值没有意义。

标称属性的注意事项

  1. 这些值不必具有有意义的序,在计算机科学中,这些值也被看做是枚举的(enumeration)。
  2. 尽管标称属性的值是一些符号或“事物的名称”,但也可以用数表示这些符号或名称,如 hari_color,可以用 0 表示黑色,1 表示黄色
    例子:hair_color(头发颜色)、marital_status(婚姻状况)、occupation(职业)。

4 二元属性

二元属性的特点

  1. 二元属性是一种标称属性,只有两个状态:0 或 1,其中 0 通常表示该属性不出现,1 表示出现。
  2. 二元属性又称布尔属性,如果两种状态对应的是 true 和 false。
  3. 对称的二元属性:如果两种状态具有同等价值,并且携带相同权重,如表示性别,则 0 和 1 分别表示男性或女性没有影响
  4. 非对称的二元属性:两种状态的结果不是同等重要的,如 HIV 患者和不是 HIV 患者,为了方便计,将用 1 对最重要的结果(通常是稀有的)编码(如,HIV 患者),而另一个用 0 编码。

5 序数属性

  • 序数属性的特点
    属性对应的可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。(也就是对应的值有先后次序)
  • 序数属性的例子
    例:drink_size,表示饮料杯的大小:小、中、大,这些值具有有意义的先后次序。
    序数属性可以通过把数值量的值域划分成有限个有序类别(如,0-很不满意、1-不满意、2-中性、3-满意、4-很满意),把数值属性离散化而得到。
    标称、二元和序数属性都是定性的,即,它们描述对象的特征,而不给出实际大小或数值。

6 数值属性

  • 数值属性的特点
  1. 是定量的可度量的量,用整数或实数表示。
  2. 可以是区间标度的或比率标度的。
  • 数值属性的分类
  1. 区间标度(interval-scaled)属性(温度属性,一般表示:10℃~15℃)。
  2. 比例标度属性:具有固有零点的属性(属性中会有固有的为 0 的值)。
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值