数据挖掘方法

最新推荐文章于 2021-06-01 14:54:20 发布

2016cxg

最新推荐文章于 2021-06-01 14:54:20 发布

阅读量1.3k

点赞数 1

本文链接：https://blog.csdn.net/qq_33785671/article/details/52419397

版权

//数据挖掘基础
数据挖掘基础：统计学，人工智能，机器学习，模式识别，神经网络，知识库系统，信息检索，高性能算法和可视化
数据类型：科学数据，医疗数据，人口统计数据，金融数据，销售数据
数据挖掘工作原理，自动分析，分类，汇总数据，发现和描述数据中的趋势，标记异常
数据挖掘是信息时代的产物
数据存储结构数据仓库（数据清理，数据集成，联机分析处理OLAP）
数据挖掘是从大量数据中挖掘有趣模式和知识的过程
数据源包括数据库DBMS，数据仓库，web，其他信息存储库，动态的流输入系统图网络数据空间数据文本数据多媒体数据万维网有序数据
关系型数据库是表的汇集（数据）使用SQL关系查询语言管理或图形用户界面书写
数据挖掘系统分析顾客收入年龄以及以前信用信息预测顾客行用风险
数据挖掘检测商品销售偏差
数据仓库用数据立方体的多维数据结构建模每个维队形模式中的一个或一组属性，数据源的汇总，每个单元存放某种聚集度量值提供数据多维视图，语序计算和快速访问汇总数据
数据挖掘主要是数据库数据，数据仓库数据，事务数据，其他的有时间相关序列数据如历史纪录、数据流数据如视频和传感器等连续播送数据、空间数据如地图、工程数据如建筑图和电路图、超文本和多媒体数据如文本图像视屏音频、图和网路数据如社会信息网路、万维网
挖掘历史论文发现焦点的转变，挖掘计算机网络数据发现异常入侵
频繁模式：频繁项集，频繁子序列，频繁子结构
构造分类模型：决策树，神经网络，朴素贝叶斯本类，支持向量机，K最近邻分类，数学公式
聚类分析对象类共性，相关分析分类回归考察区分类的相关性，离散点分析考察异常（比如欺诈）

数据挖掘在于建立模式和系统
数据挖掘算法完整性和优化问题

统计模型用于数据和数据类建模，庸俗及变量及其概率分布刻画目标类对象的行为得到一组数学函数
统计学的预测工具用于汇总和秒速数据集
统计方法可以检测验证数据挖掘结果
机器学习让计算机通过数据紫铜学习识别复杂的模式，并作出只能判断，让计算机学习和识别一种模式
监督学习实际上是分类，无监督学习实际上是聚类，半监督学习使用标记和未标记的实例，主动学习从用户获取知识提高模型质量

数据挖掘应用：商务智能，web搜索，生物信息学，卫生保健信息学，金融，数字图书馆，数字政府
数据挖掘挑战：挖掘方法，用户交互，有效性和可伸缩性，处理数据类型

文献资料P47

//认识数据：
通过均值，中位数，众数等中心趋势度量填补祛湿之，光滑噪声和认识离散点；中心图显示数据是否对称和倾斜
分位数图，直方图，散点图，条图，饼图，线图，分位数图，分位数-分位数图
极差，四分位数，四分位数极差，五数概括和盒图，方差，标准差

属性是一个数据子段，表示数据对象的特征，（维，特征，变量）
数据对象的标称属性，二元属性，序数属性

刻画对象相异型的距离：欧几里得距离（L2范数，曼哈顿距离（L1范数，闵可夫斯基距离（Lp范数），切比雪夫距离（Lmax范数）
对象属性相异型通过距离求，相似性通过1-距离求

数据可视化：基于像素，基于几何，基于图标，基于层次用于多位关系数据

文献：P78

//数据预处理：
数据清理，数据集成，数据规约，数据变换
数据清理获得准确完整一致的数据，保证数据时效可信，填补缺失值，去除异常值；数据集成将多个不同来源数据集合为一个数据库，最终得到数据规约的一个维归约和数值规约数据库或者数据表
神经网络，最近邻分类，聚类基于距离的挖掘算法
离散化和概念分层
回归，贝叶斯形式化方法，决策树归纳可以用于数据填充缺失，使用同类数据，同类数据均值，填补
回归，分箱，离散点分析（聚类簇）用于去噪
偏差检测和数据变换 Potter's Wheel SQL
数据冗余协方差研究两个不同对象的相关关系
维归约包括小波变换（有损压缩）和主成分分析（pca 搜索k个最能代表数据的n维正交向量可以用作多元回归和聚类分析输入 pca更好处理稀疏矩阵，小波变换适合高维数据）
存放数据规约表示的非参数方法包括直方图，聚类，抽样和数据立方体聚集
属性子集选择减少数据量，排除不相关属性，使用压缩搜索空间的启发式算法贪心算法局部最优策略局部最优解
决策树最初用于分类属性构造
回归构造 SAS SPSS
数据规约技术回归直方图聚类抽样
规范化数据赋予属性相等的权重，减少分析坐标系的开销：最小最大规范化，零均值规范化，小树定标规范化
分箱离散化，直方图离散化，聚类、决策树、相关分析离散化离散化将数据分类
模式和属性值计数信息都可以用来产生标称数据盖帘分层，概念分层发现不同的只是模式
数据变换为了数据离散化和概念分层：离散化把之映射到区间或者概念标号变换数值数据，产生概念分层
概念分层使得在多个粒度层挖掘，数值数据的等频、等宽划分，模式属性产生概念分层

数据仓库是一个面向主题的集成的时变的非易失的数据集合

OLTP系统供共数据库建设人员操纵，OLAP供决策层操作，构建两个系统在于效率
数据仓库包括底层数据库，中间层OLAP服务器，顶层前段客户层供数据挖掘操作
数据仓库模型包括企业仓库，数据集市和虚拟仓库
元数据库是对数据仓库的描述，包括数据来源，清理方法，汇总方法等等，在数据库底层
数据立方体匀速以多维对数据建模和观察，多维数据模型可以是星形模式，雪花模式和事实星座模式
一个肚量如果可以用分布聚集函数得到，则他是分布的 count min max函数
一个度量如果可以用整体聚集函数得到，则他是整体的 median mode rank函数
一个都亮可以用代数聚集函数得到，则他是代数的 stadard_deviation 函数 sum count 函数
上卷沿概念分层向上，下钻向下引入新的维，切片和切块在数据立方体一个和多个维上选择，转过执行数据表查询，钻透到数据库底层到后端数据表
OLAP系统执行数据挖掘工作，带有很多操作选择同样SDB也可以，蛋挞注重社会经济应用，OLAP旨在商务应用
查询多维数据库用星网查询模型
数据仓库的设计方法
数据仓库用于信息处理
设计数据仓库
物化基本方体

索引OLAP数据：位图索引和连接索引

关系OLAP服务器（ROLAP）
多维OLAP服务器（MOLAP）
混合OLAP服务器（HOLAP）
特殊SQL服务器
属性有大量不同值，泛化，属性少值删除，泛化将导致相同元祖的分组
面向属性归纳的基本算法P138
集成数据立方体技术和面向属性的归纳可能平和预计算和联机计算，当需要下钻到比被泛化的关系提供的抽象层还深时，也能支持快速联机计算
物化向下，泛化向上，是一种添加概念分层的存储技术
使用更新驱动（构造和使用数据仓库）而非查询驱动（使用包装程序和集成程序）集成信息源；
模式挖掘研究路线图：P205
先验性质
量化规则的数据立方体方法，基于聚类的方法，解释异常行为的统计学方法的挖掘发法
模式融合挖掘巨型模式
模式聚类挖掘压缩模式
模式可以是项的集合，子序列，子结构或一些值

数据分类：
学习：用分类算法分析训练数据，分类：检验数据用于评估分类规则的准确率
决策树算法：P239 信息增益进行决策树归纳基尼指数进行决策树归纳属性选择度量（最小描述长度，，多元划分）增益率属性增益率基尼指数数据量数据分区或训练元组集D的不纯度
树剪枝先剪枝后剪枝悲观剪枝树构造的自助乐观算法BOAT
决策树可视化：树交互构建
决策树分类，朴素贝叶斯分类，规则分类（IF-THEN规则规则准确率和覆盖率）
规则归纳：决策树方法，顺序覆盖算法（P257)，
分类准确率评估方法
分类准确率提高方法：从原训练集D导出单个分类器，装袋（P270 复合模型降低了个体分类器的误差）提升和AdaBoost（P272），
随机森林一种组合方法
提高类不平衡数据分类准确率的一般方法：过抽样，欠抽样，阈值移动，组合技术

构建数据仓库

数据立方体技术：
数据立方体能够存放多个数据维尚德预计算度量
数据立方体的计算方法和多维数挖掘
立方体物化，完全立方体，冰山立方体，闭立方体，立方体外壳，一个立方体代表一个数据对象，基本单元和聚集单元
聚集单元是解释树的顶层，是父节点和祖先，基本单元是解释树的底层，是子节点和孩子
BUC算法计算稀疏冰山立方体
BUC算法P154 分担划分开销的思想

Star-Cubing 使用动态星树结构计算冰山立方体
Star-Cubing算法P159 自顶向下和自底向上立方体计算，利用多维聚集（multiway）和类apriori剪枝（BUC）降低计算时间和内存需求量共享维剪枝，

计算外壳片段算法Frag-Shells P161 倒排索引

置信区间是一个一给定的高概率涵盖真正总体值估计的值域

使用排序立方体回答top-k查询
探索立方体空间的发现驱动方法

挖掘关联规则实则挖掘频繁项集
Apriori算法是挖掘频繁项集的基本算法，通过限制候选产生，逐层搜素迭代方法
频繁项集的所有非空子集也一定是频繁的
Apriori算法P187 连接和剪枝
FP树挖掘
FP-Grouth算法 P192

等价类变换算法挖掘垂直数据模式树
关联规则算法都是用支持度-置信度框架，算法补充，提升都是一个相关性度量，协相关分析零事务

挖掘多种类型模式的方法：
多层模式，多维模式，连续数据模式，稀有模式，负模式，受约束的频繁模式，高维数据中的频繁模式，巨型模式，压缩和近似模式，从时空数据多媒体和流数据挖掘模式，挖掘序列模式和结构模式
模式挖掘路线图：模式类型，挖掘方法，应用

分类是一种数据分析形式，提取描述数据类的模型，分类器或分类模型预测类别标号（类）数值预测建立连续值模型，分类和数值预测是两类主要的预测问题
决策树归纳是一种自顶向下递归树归纳算法，使用一种属性选择度量为树的每个非树叶节点选择属性测试 ID3，C4.5 CART 可伸缩树的可伸缩算法 RainForest
混淆矩阵评估分类器的质量，显示真正例、真负例、假正例、假负例，度量准确率、灵敏度、特效行、精度、F和Fp
分类器的构造和评估需要把标记的数据集划分成训练和检验集，保持，随机抽样，叫查验证，自助法
模型选择：显著性检验（评估俩个分类器准确率的差别是否处于偶然） ROC曲线（绘制一个或多个分类器真正例率与假正例率
组合方法通过学习和组合一系列各题分类器模型提高总体准确率（装袋，提升，随机森林）
当感兴趣的朱磊只有少量月则代表就会出现不平衡问题，处理策略：抽样，欠抽样，阈值移动，组合技术

分类高级：（急切学习在接收分类的新元组之前就够早泛化模型）贝叶斯信念网络（不假定类条件独立性，概率图模型，梯度下降策略），后向传播（神经网络算法一组连接的带有权重的输入输出单元，多层前馈神经网络-输入层，隐藏层，输入层；P284），支持向量机（SVM 搜索最大边缘超平面数据非线性可分训练数据变换到更高维的空间，支持向量的基本训练元祖，找出将数据按类分开的超平面），频繁模式分类（属性-值对间的关系关联规则算法-基于分类的关联CBA（使用迭代挖掘频繁项集）、基于多关联规则的分类CMBA（加强FP-树），惰性学习（最近邻分类，基于案例的推理分类CBR），其他（遗传算法-利用自然进化思想、创建一个有随机产生的规则组成的初始群体、规则总体通过交叉和变异操作进化知道总体所有的规则都满足指定的阈值，粗糙集合-近似定义类，模糊逻辑技术-用隶属度函数替换连续值属性的脆弱的阈值）
分类主题：多类分类，半监督分类，主动学习，迁移学习

聚类分析：
一个把数据对象划分成多个组或簇的过程，使得簇类的对象具有很高的相似性
聚类泛化，分类物化
聚类算法的要求
聚类算法分类P316（划分方法- k-均值算法P318、PAM-k中心点算法P321、，层次方法（概率层次聚类算法P330），密度方法（DBSCAN算法P333 DENCLUE聚类方法　单连接方法），网格方法（STING统计信息网格聚类技术，CLIQUE子空间聚类方法）
聚类评估-估计聚类趋势，确定数据集中的簇数，测定聚类质量
聚类高级：基于概率模型的聚类-模糊簇、混合模型、概率簇期望最大化EM算法，聚类高维数据-子空间聚类方法（子空间索搜方法，基于相关性的聚类方法、双聚类方法-同时聚类对象和属性）和维归约方法（谱聚类-使用相似矩阵），聚类图和网络数据（SCAN算法P369），约束聚类
传统聚类分析对象被互斥的指派到一个簇中，然而现实需要用模糊或概率方式把对象指派到多个簇中，划分矩阵记录对象属于簇的隶属度

离散点分析：
全局离散点，情景离散点，集体离散点
离散点检测：监督，半监督，无监督方法
离散点检测方法：统计学方法，基于邻近性的方法（基于距离的离散点检测算法P386 基于网格，基于密度的离散点检测，基于局部邻近性的离散点），基于聚类方法，基于分类方法

数据挖掘前沿：
挖掘序列数据（时间序列，符号序列，生物学序列）
挖掘图和网络
挖掘空间数据，时空数据，物联网系统数据，多媒体数据，文本数据，web数据，数据流数据
其他数据挖掘方法：
统计学方法：回归，广义线性模型，方差分析，混合效应模型，因素分析，判别式分析，生存分析
数据挖掘基础：数据规约，数据压缩，概率统计理论，微观经济学学观点，模式发现和归纳数据库
可视与听觉数据挖掘：数据可视化，挖掘结果可视化，挖掘过程可视化，交互式可视化数据挖掘，听觉数据挖掘
数据挖掘应用：财经数据分析，零售与电信业，科学工程，入侵检测预防，推荐系统
信用贷款，金融犯罪洗钱，促销，医疗，天文，欺诈

数据挖掘技术：
数据预处理，建立数据仓库（建立OLAP系统，实现数据立方体技术），数据挖掘方法（分类分析，聚类分析）