数据挖掘初探



数据挖掘技术

1)数据挖掘:

从数据中挖掘知识。包括数据清理(消除噪声、删除不一致数据)、数据集成(多种数据元集合一起)、数据选择(从数据库中提取与分析任务相关的数据)、数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)、数据挖掘、模式评估和知识表现(可视化表示技术)

2)数据挖掘模式:

特征化与区分;频繁模式、关联规则与相关性;预测分析的分类与回归;聚类分析;离群点分析;

3)使用技术:

统计学;机器学习;数据库系统与数据仓库;信息检索。

4)数据挖掘的主要问题:

挖掘方法、用户界面、有效性和可伸缩性、数据库类型的多样性、数据挖掘与社会。

5)认识数据:

属性、标称属性、二元属性、序数属性(有意义的序或者秩,比如大中小,满意一般不满意)、数值属性、离散属性与连续属性。

6)数据类型:

    包括:序列数据(时间序列数据、符号序列数据、生物学序列数据等)、图与网络(同质数据和异质数据)、其他类型数据(空间数据、时间空间数据、物流网系统数据、多媒体数据、文本数据、web数据、数据流)。

6)数据的基本统计描述:

中心趋势度量:均值、中位数和众数。

度量数据散步:极差(最大值与最小值之差)、四分位数、方差、标准差、四分位数极差。

7)数据可视化技术:

基于像素的可视化技术、几何投影可视化技术、基于图符的可视化技术、层次可视化技术、可视化复杂对象和关系。

8)数据预处理;

数据质量包括:准确性、完整性、一致性、时效性、可信性和可解释性。

数据质量三个要素:准确性、完整性和一致性。

数据清理包括:缺失值处理(忽略、人工填写、全局常量、属性的中心度量均值等填充、同质同一属性均值、最可能值)、噪声数据(局部光滑、回归、离群点分析)。

数据清理先要进行偏差检测。

数据清洗工具、数据审计工具,数据迁移工具。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值