数据挖掘之-简单属性之间的相似度和相异度

本文介绍了数据挖掘中关于标称属性的概念,这些属性的值通常代表分类或状态,如头发颜色和婚姻状况。由于标称属性值不具备数学运算意义,计算平均值或中位数并不适用,但可以确定众数作为中心趋势度量。内容涵盖标称属性的定义、示例及属性值的编码方式。
摘要由CSDN通过智能技术生成

通常,具有若干属性的对象之间的邻近度用单个属性的邻近度的组合来定义。

首先了解什么是标称属性:

标称意味“与名称相关”。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。在计算机科学中,这些值也被看做是枚举的(enumeration)。

例2.1 标称属性。假设hair_color(头发颜色)和marital_status(婚姻状况)是两个描述人的属性。在我们的应用中,hair_color的可能值为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色。属性marital_status的取值可以是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性。标称属性的另一个例子是occupation(职业),具有值教师、牙医、程序员、农民等。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值