数据挖掘工程师知识集

数据挖掘的技术过程:

  1. 数据清理(消除噪音或不一致数据)
  2. 数据集成(多种数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。

这里写图片描述

这里写图片描述

可以挖掘的数据类型:

关系数据库、数据仓库、事务数据库、空间数据库、时间序列数据库、文本数据库和多媒体数据库。

关系数据库:是表的集合,每个表都赋予一个唯一的名字。每个表包含一组 属性(列或字段),并通常存放大量 元组(记录或行)。关系中的每个元组代表一个被唯一关键字标识的对象,并被一组属性值描述。

数据仓库:通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造 
这里写图片描述

事务数据库:由一个文件组成,其中每个记录代表一个事务。通常,一个事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表(如,在商店购买的商品)

可以挖掘的模式类型:

概念/ 类描述:特征和区分

(1)数据特征化,一般地汇总所研究类(通常称为 目标类)的数据,或(2)数据区分,将目标类与一个或多个比较类(通常称为 对比类)进行比较。

挖掘频繁模式、关联和相关性

用于预测分析的分类与回归

聚类分析

离群点分析

使用的技术

这里写图片描述

面向的应用类型

商务智能、web搜索引擎

在挖掘中需要注意的东西

源数据特征方面:

1、监督还是非监督,即有无样本数据。 
2、对象特征(属性)是什么产生的,为什么这么产生 
3、属性是离散的还是连续的 
4、混合类型属性。离散属性是标称还是数值。标称属性类型:二元、有序、无关。数值属性类型:区间、比例 
5、特征维度和稀疏度 
6、缺失值怎么处理 
7、各维度尺度怎么处理 
8、异常噪声怎么处理 
9、超大数据集怎么办

数据间相似性和相异性的度量:

1、数据矩阵(对象-属性结构)、相异性矩阵(对象-对象结构) 
2、标称属性的相似度、二元属性的相似度、数值属性的相似度、序数属性相似度、混合属性相似度 
3、稀疏特征向量的余弦相似性

数据预处理方面(清洗、集承、归约、变换):

这里写图片描述

1、数据不准确怎么办? 
2、数据不完整这么办? 
3、数据格式不一致怎么办? 
4、数据重复、冗余怎么办? 
5、数据已过时怎么办? 
6、数据噪声、离群点怎么办? 
7、维度太高怎么办?(归约、小波变换、主成分分析、属性子集、)

数据结果方面: 
1、数值结果还是类结果 
2、如何判断结果的好坏() 
3、结果能否反馈到模型中(后馈)

模型方面: 
1、如何判断模型的好坏 
2、如何用现有数据增强模型(交叉验证) 
3、如何并用多个模型(随机森林)

数据挖掘算法

分类器与聚类算法不同。聚类算法是非监督算法,只是对一群输入对象进行分组,每组属于什么类别是不知道的。而分类器是在没有任何数据前就已经定好了拥有哪些类。分类器是监督算法。对一批已知所属分类的数据集进行统计训练。然后再对新来的数据进行判定属于哪个分类。

分类过程概述:首先有一批已知分类的数据集。对每个输入对象提取特征,根据输入对象的特征属性和输入对象的所属分类,计算分类与特征属性之间的概率关系,以此来实现样本的训练。当对新的输入对象进行预测所属分类时,提取新输入对象的特征,根据训练好的概率,判断输入对象属于每个分类的概率。

 

最后欢迎大家访问我的个人网站:1024s​​​​​​​

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值