数据挖掘:认识数据

越来越多的人认识到,数据对这个世界的影响越来越大,掌握数据就掌握了发言权。如何从数据中找到想要的知识,是得到数据之后最需要关心的。数据挖掘,也是知识发现的过程。

1、理解数据

现实世界中,各行各业每时每刻都在产生数量庞大的数据集,让人眼花缭乱,应该怎样理解和处理数据呢?
数据集由数据对象组成,一个数据对象代表一个实体,也可称样本、实例、数据点或者对象。那么,该如何刻画这些数据对象呢?一般在数据仓库范围使用术语“维”,在机器学习领域使用术语“特征”,在统计学领域使用“变量”。这些术语,和“属性”一样,都是样本的一个数据字段,可以互换使用。比如,在学生信息数据库中,每一个学生都是一个数据对象,而学生的各类基本信息都可以用来标识这个学生,如身高、体重、年龄、生日、家庭住址等等,这些都属于特征。

2、数据对象类型

数据对象的类型不一样,表现形式也不同。大体有这么几类,如数值型、文本型、图像、声音等等。现在随着数据越来越复杂,混合型数据也越来越多。如医学检查中既有文本,也存在数值;医疗影像中,既有图像、文本,也会有数值等等。数据类型不同,处理方式也会不同,不能一概而论。

3、属性类型

数据对象由属性来刻画,那么属性有哪几种类型呢?属性类型的判断是根据属性的值的形式决定的,一般分为二元、标称、序数和数值。

3.2.1、二元属性

二元,即0和1,在计算机中使用非常广泛,在这里形容一个属性,只能在两种状态中选择一个,如男或女,是否抽烟,是否生病等等。二元属性分对称和非对称。如果是对称的,就是指这两种状态,发生任何一种概率是相同的,比如男女,理论上婴儿是男或者女的概率差不多;如果是非对称的,就是说两种状态的发生概率明显不同,如是否患口腔癌,社会上口腔癌患者比例还是远低于正常人比例。一般使用1对稀有状态进行编码,0对常见状态进行编码,在是否患口腔癌属性上,患病为1,正常为0。

3.2.2、标称属性

标称,“与名称相关”,标称属性的值是一些符号或事物的名称,因此,标称属性没有意义。简化的理解,就是从有限的离散数据中取值。举例来说,头发颜色有黑、白、黄、棕等等,这是有限的离散值;学生的学号,可以从1排到200,这也是有限的离散值。
标称属性值可以进行编码,但是编码之后也不能赋予它数值上的意义。如头发颜色黑=1,白=2,黄=3,棕=4,那么2-1并不能说明什么。另外,对1234几种颜色,求他们的中位数或者平均值也不能说明什么,如平均值为2.1,能说明什么呢?但是众数还是有意义的,但是众数跟编码数值并没有关系。

3.2.3、序数属性

序数属性跟标称属性有点类似,都是从有限的离散值中取值,他们的不同在于序数属性的值是有意义的。
比如,食堂饭菜调查,1=非常满意,2=满意,3=还行,4=不满意,那么平均值为1.3,说明食堂饭菜还是得到了大多数人的认可。

这里也可以看出。二元、标称和序数三种属性,是定性的,他们的值一般是代表类别的,是可编码的。

3.2.4、数值属性

数值属性跟上述三种属性不同,它是定量的,是可以通过科学手段,或者是社会常识进行标定的,包括离散型和连续型。
离散型:比如电子病历数据集,字符数属性的值就是离散的;银行的个人信息数据集,个人资产属性值也是离散的。
连续型:一般连续型数值采用浮点变量表示,但是实际过程中,大多数连续型数值并不会对整体数据都太大影响,所以会采用离散值代替。如此时气温,根本采集不到最准确的,就会小数点后取一位就可以了,如23.4度。

4、总结

在拿到数据集的时候,首先分析数据集中有多少子数据集,然后对每个子数据集进行分析,看有多少数据对象,每个数据对象有多少属性。只有完成这些工作,才可以说是对数据集有了整体掌握,才可以进行下一步的数据工作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值