数据挖掘原理

最新推荐文章于 2025-03-01 23:44:14 发布

菜且穷

最新推荐文章于 2025-03-01 23:44:14 发布

阅读量3.2k

点赞数 31

分类专栏：数据挖掘文章标签：数据挖掘大数据深度学习

本文链接：https://blog.csdn.net/u010111502/article/details/123975582

版权

数据挖掘专栏收录该内容

1 篇文章

订阅专栏

一：数据挖掘过程

数据挖掘过程

阶段1：数据收集

数据来源：

传感器网络
用户调查
自动收集的文件

重要性：

非常重要，对整个数据挖掘过程产生重大影响

存储：

数据仓库

阶段2：数据处理

特征提取

目的：将数据转换成对数据挖掘算法友好的格式

在这里插入图片描述

对象与特征(Objects and features)

对象和特征在数据层面的含义
在这里插入图片描述

数据清理

对数据的缺失和错误部分进行估计或纠正。

可能采取的措施：

删除该条记录
估计丢失数据的值
删除不一致的地方

数据特征选择与转化

可能采取的措施：

删除不相关的特征
将现有的特征转化为不同的维度或格式
例如：numerical age ->{young,middle,elderly}

阶段3：分析

主要任务：针对预处理数据设计和应用算法方法
通常会把问题分解为以下4个模块：

关联模式挖掘
集群clustering
分类classification
离群点检测 outlier detection

二：数据类型

1：面向非依赖性的数据 (Nondependency-oriented data)

数值或定量的
分类或无序的离散值
二进制数据{0,1}。
文本数据

2：面向依赖性的数据(dependency-oriented data）

也就是说：对象之间可能存在 依赖关系

隐性(implicit):从传感器收集的连续的测量数据
显性(explicit):网络连接：节点(对象)通过边(关系)连接
例如：Facebook social networks

三：数据展示

无论分类算法如何，不合适的数据都会导致分类性能问题

数据问题及挑战

不同数据特征使用不同的规模(尺度)
height:{100,230} 厘米
wight:{40,120}公斤
表示不同类型的数据
数字编码{是:0 否:-1}
文本数据(划分规则)
- 所有单词(a list of words)
- 所有去重后单词(a set of words)
- 所有单词频率(By a vector of word frequency)
- 所有字母出现频率(by a vector of letter frequency)
特征修剪
许多不相关的特征（即与预测完全不相关的特征）
如何处理冗余的特征？
- 文本数据的不相关特征：一个词总是或几乎从不出现
- 数字数据的不相关特征：低方差特征

四：数据挖掘的主要问题

1. 模式发掘：Association pattern mining

频繁模式挖掘（二进制数据集）
example:
在这里插入图片描述

超市购买商品，人们总是在购买面包的同时会购买黄油和牛奶

2. 分类 classification

通过 训练数据 学习一个固定的特征，即类标签 和 数据中剩余数据特征 之间的关系。通过学习所产生的学习模型可以用来估计(预测)，测试数据记录中的类标签(类标签值是不可知的)。属于监督学习(supervised learning )的一种。

监督学习：

解释一：

对具有标记的训练样本进行学习，以尽可能【对训练样本集外的数据进行分类预测】。

解释二：

通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了 对未知数据进行分类的能力。
如：KNN;SVM;训练神经网络；决策树