数据挖掘工程师知识集

最新推荐文章于 2020-12-09 14:29:04 发布

崔世勋

最新推荐文章于 2020-12-09 14:29:04 发布

阅读量656

点赞数 1

分类专栏：软件架构

软件架构专栏收录该内容

155 篇文章 1 订阅

订阅专栏

数据挖掘的技术过程：

数据清理（消除噪音或不一致数据）
数据集成（多种数据源可以组合在一起）
数据选择（从数据库中提取与分析任务相关的数据）
数据变换（数据变换或统一成适合挖掘的形式；如，通过汇总或聚集操作）
数据挖掘（基本步骤，使用智能方法提取数据模式）
模式评估（根据某种兴趣度度量，识别提供知识的真正有趣的模式）
知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）。

这里写图片描述

这里写图片描述

可以挖掘的数据类型：

关系数据库、数据仓库、事务数据库、空间数据库、时间序列数据库、文本数据库和多媒体数据库。

关系数据库：是表的集合，每个表都赋予一个唯一的名字。每个表包含一组属性（列或字段），并通常存放大量元组（记录或行）。关系中的每个元组代表一个被唯一关键字标识的对象，并被一组属性值描述。

数据仓库：通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造
这里写图片描述

事务数据库：由一个文件组成，其中每个记录代表一个事务。通常，一个事务包含一个唯一的事务标识号(trans_ID)，和一个组成事务的项的列表（如，在商店购买的商品）

可以挖掘的模式类型：

概念/ 类描述：特征和区分

（1）数据特征化，一般地汇总所研究类（通常称为目标类）的数据，或（2）数据区分，将目标类与一个或多个比较类（通常称为对比类）进行比较。

挖掘频繁模式、关联和相关性

用于预测分析的分类与回归

聚类分析

离群点分析

使用的技术

这里写图片描述

面向的应用类型

商务智能、web搜索引擎

在挖掘中需要注意的东西

源数据特征方面：

1、监督还是非监督，即有无样本数据。
2、对象特征（属性）是什么产生的，为什么这么产生
3、属性是离散的还是连续的
4、混合类型属性。离散属性是标称还是数值。标称属性类型：二元、有序、无关。数值属性类型：区间、比例
5、特征维度和稀疏度
6、缺失值怎么处理
7、各维度尺度怎么处理
8、异常噪声怎么处理
9、超大数据集怎么办

数据间相似性和相异性的度量：

1、数据矩阵（对象-属性结构）、相异性矩阵（对象-对象结构）
2、标称属性的相似度、二元属性的相似度、数值属性的相似度、序数属性相似度、混合属性相似度
3、稀疏特征向量的余弦相似性

数据预处理方面（清洗、集承、归约、变换）：

这里写图片描述

1、数据不准确怎么办？
2、数据不完整这么办？
3、数据格式不一致怎么办？
4、数据重复、冗余怎么办？
5、数据已过时怎么办？
6、数据噪声、离群点怎么办？
7、维度太高怎么办？（归约、小波变换、主成分分析、属性子集、）

数据结果方面：
1、数值结果还是类结果
2、如何判断结果的好坏（）
3、结果能否反馈到模型中（后馈）

模型方面：
1、如何判断模型的好坏
2、如何用现有数据增强模型（交叉验证）
3、如何并用多个模型（随机森林）

数据挖掘算法

分类器与聚类算法不同。聚类算法是非监督算法，只是对一群输入对象进行分组，每组属于什么类别是不知道的。而分类器是在没有任何数据前就已经定好了拥有哪些类。分类器是监督算法。对一批已知所属分类的数据集进行统计训练。然后再对新来的数据进行判定属于哪个分类。

分类过程概述：首先有一批已知分类的数据集。对每个输入对象提取特征，根据输入对象的特征属性和输入对象的所属分类，计算分类与特征属性之间的概率关系，以此来实现样本的训练。当对新的输入对象进行预测所属分类时，提取新输入对象的特征，根据训练好的概率，判断输入对象属于每个分类的概率。

最后欢迎大家访问我的个人网站：1024s

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘工程师知识集

数据挖掘的技术过程：数据清理（消除噪音或不一致数据）数据集成（多种数据源可以组合在一起）数据选择（从数据库中提取与分析任务相关的数据）数据变换（数据变换或统一成适合挖掘的形式；如，通过汇总或聚集操作）数据挖掘（基本步骤，使用智能方法提取数据模式）模式评估（根据某种兴趣度度量，识别提供知识的真正有趣的模式）知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。