2.数据挖掘概念笔记——认识数据

2.数据挖掘概念笔记——认识数据

欢迎转载,转载请标明出处:http://blog.csdn.net/notbaron/article/details/50390517

数据集由数据对象组成。一个数据对象代表一个实体。

数据对象用属性描述。

数据对象又称样本、实例、数据点或对象。

1.  属性

属性是一个数据字段,表示数据对象的一个特征。一般,属性、维、特征和变量可以互换使用。

标称属性的值是一些符号或事物的名称。

二元属性是一种标称属性,只有两个类别或状态:0或1.

序数属性,可能的值之间具有有意义的序或秩评定。

数值属性是定量的,可度量的量,用整数或实数值表示。

机器学习领域开发的分类算法通常把属性分成离散的或连续的。

2.  数据的基本统计描述

对于成功的数据预处理而言,把握数据的全貌是至关重要的。基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。

有三类基本统计描述。

中心趋势度量:均值、中位数、众数和中列数。

数据的散布:极差、四分位数、四分位数极差、五数概括和盒图,以及数据的方差和标准差。

图形化:使用基本统计描述的许多图形显示来可视化地审视数据,分位树图、分位数-分位数图、直方图和散点图。

3.  数据可视化

数据可视化通过图形表示清晰有效地表达数据。

基于像素的可视化技术,是一种可视化一维值的简单方法。

几何投影技术帮助用户发现多维数据集的有趣投影。主要挑战是设法解决如何在二维显示上可视化高维空间。

基于图符的可视化技术使用少量图符表示多维数据值。

层次可视化技术:对于大型高维数据集,很难同时对所有维可视化,层次可视化技术把所有维划分成子集,这些子空间按层次可视化。

         早起,可视化技术主要用于数值数据。最近越来越多的非数值数据已经成为可利用的。可视化和分析这类数据引起来更多关注。

4.  度量数据的相似性和相异性

在聚类、离群点分析和最近邻分类等数据挖掘应用中,需要评估对象之间相互比较的相似或不相似程度。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值