数据挖掘概念与技术 第2章 认识数据

本文主要介绍数据对象与属性,数据的基本统计描述,数据可视化和度量数据的相似性和相异性。

2.1 数据对象与属性类别

      数据集由数据对象组成,一个数据对象代表一个实体。通常数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中,则称它为数据元组。
     属性:是一个数据字段,表示数据对象的一个特征。在文献中,属性、维(dimension)、特征和变量可以互换使用。用以描述一个给定对象的一组属性称为属性向量(或特征向量)。涉及一个属性的数据分布称作单变量。双变量涉及两个属性。
     标称属性(nominal attribute):标称意味着与“名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。标称属性值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象。
     二元属性(binary attribute):是一种标称属性,只有两个类别或状态:0或1,又称布尔属性。
   <font color=red>一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重。
                               一个二元属性是非对称的,如果其状态结果不是同等重要。</font>  
序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。
数值属性:是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或者比率标度的。
离散属性和连续属性:把属性分成离散的或连续的。

2.2 数据的基本统计描述

一、中心趋势度量:均值、中位数和众数


数据集“中心”的度量最常用、最有效的数值度量是(算术)均值。令 x1x2...xN 为某数值属性X的N个观测值或观测。该值集合的均值(mean)为:
x¯=x1+x2+...+xNN

有时,对于i=1,2,…,N,每一个值 xi 可以与一个权重 wi 相关联,权重反应它们所依附的对应值的意义、重要性或者出现的频率。在这种情况下,我们可以计算:
x¯=sumNi=1wixisumNi=1wi=w1x1+w2x2+...+wNxNw1+w2+...+wN
这称做加权算术均值或加权平均。
为了抵消少数极端值的影响,我们可以使用 截尾均值(trimmed mean):丢弃高低极端值后的均值
对于倾斜(非对称)数据,数据中心的更好度量是中位数。中位数是 有序数据值的中间值:一定是排序后的数列。它是把数据较高一半与较低一半分开的值。
众数是另一种中心趋势的度量。数据集中众数是集合中出现最频繁的值。
中列数(midrange)也可以用来评估数值数据的中心趋势。中列数是数据集的最大和最小值得平均值。

二、数据散布度量:极差、四分位数、方差、标准差和四分位数极差


x1,x2,...,xN 是某数值属性X上的观测的集合。该集合的极差是最大值与最小值之差。
假设属性X的数据以数值递增序排列。想象我们可以挑选某些数据点,以便把数据分布划分成大小相等的连贯集。这些数据点称做分位数。 分位数(quantile)是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
2-分位数是一个数据点,它把数据分布划分成高低两半。2-分位数是一个中位数。4-分位数是3个数据点,它们把数据划分成4个相等的部分,使得每部分表示数据分布的四分之一。通常称它们为四分位数、100-分位数通常称做百分位数,它们把数据分布划分为100个大小相等的连贯集。第1个四分位数记做 Q1 ,是第25个百分位数,它砍掉数据的最低的25%。第3个四分位数记做 Q3 ,是第75个百分位数,它砍掉数据的最低75%,第2个百分位数是第50个百分位数,作为中位数,它给出数据分布的中心。
第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为:IQR = Q3Q1 。识别可疑离群点的通常规则是,挑选落在第3个四分位数之上或第一个四分位数之下至少1.5*IQR处的值。
五数概括(five-number summary)由中位数 Q2 、四分位数
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《超市积分管理系统》该项目采用技术jsp、strust2、tomcat服务器、mysql数据库 开发工具eclipse,项目含有源码、论文、配套开发软件、软件安装教程、项目发布教程    超市会员积分管理系统主要用于实现了企业管理数据统计等。本系统结构如下:(1)网络会员管理中心界面:       会员修改密码信息模块:实现会员密码功能;       会员登陆模块:实现会员登陆功能;       会员注册模块:实现会员注册功能;       留言板模块:实现留言板留言功能(2)后台管理界面:       系统用户管理模块:实现管理员的增加、查看功能;       会员信息管理模块:实现会员信息的增加、修改、查看功能;       注册用户管理模块:实现注册用户的增加、修改、查看功能;       会员卡管理模块:实现会员卡信息的增加、查看功能;       商品销售管理模块:实现商品信息的增加、查看功能;       会员积分管理模块:实现合作公司信息的增加、查看功能;       信息统计模块:实现数据统计报表功能;       留言板模块:实现留言板信息的增加、修改、查看功能; 课程目标:    1、学会各类开发软件安装、项目导入以及项目发布,含项目源码,需求文档,配套软件等    2、该项目主要功能完善,主要用于简历项目经验丰富,以及毕业设计或者二次开发    3、提供项目源码,设计文档、数据库sql文件以及所有配套软件,按照教程即可轻松实现项目安装部署 本课程为素材版,需要实战版代码讲解教程的同学可以点击如下链接:java项目实战之电商系统全套(前台和后台)(java毕业设计ssm框架项目)https://edu.csdn.net/course/detail/25771java项目之oa办公管理系统(java毕业设计)https://edu.csdn.net/course/detail/23008java项目之hrm人事管理项目(java毕业设计)https://edu.csdn.net/course/detail/23007JavaWeb项目实战之点餐系统前台https://edu.csdn.net/course/detail/20543JavaWeb项目实战之点餐系统后台https://edu.csdn.net/course/detail/19572JavaWeb项目实战之宿舍管理系统https://edu.csdn.net/course/detail/26721JavaWeb项目实战之点餐系统全套(前台和后台)https://edu.csdn.net/course/detail/20610java项目实战之电子商城后台(java毕业设计SSM框架项目)https://edu.csdn.net/course/detail/25770java美妆商城项目|在线购书系统(java毕业设计项目ssm版)https://edu.csdn.net/course/detail/23989系统学习课程:JavaSE基础全套视频(环境搭建 面向对象 正则表达式 IO流 多线程 网络编程 java10https://edu.csdn.net/course/detail/26941Java Web从入门到电商项目实战挑战万元高薪(javaweb教程)https://edu.csdn.net/course/detail/25976其他素材版(毕业设计或课程设计)项目:点击老师头像进行相关课程学习

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值