![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 76
纫秋兰以为佩
我的公众号:一朵深渊
展开
-
数据挖掘概论
复习笔记 数据挖掘定义 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 Data mining consists of applying data analysis and discovery algorithms that, under acceptable computational efficiency limitations, produce a p原创 2017-10-10 23:43:26 · 611 阅读 · 0 评论 -
数据预处理
复习笔记 现实数据的缺陷:不完整、含噪声、编码不一致 数据预处理的任务 数据清理:空缺值,噪声数据,删除孤立点,解决不一致性 数据集成:集成多个数据库、数据立方体或文件 数据归约:得到数据集的压缩表示,但可以得到相同或相近的结果 数据变换:规范化和聚集 数据离散化:将连续数据进行离散处理 数据清理处理缺失值 忽略元组 人工填写 全局值填充(如0,-∞) 其属性的平均值填充 与给定元组属同一类的所有原创 2017-10-11 16:49:13 · 436 阅读 · 0 评论 -
数据仓库
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程。 —W. H. Inmon数据仓库关键特征 面向主题 关注决策者的数据建模与分析 排除对于决策无用的数据,提供特定主题的简明视图 数据集成 数据仓库集成了多个异种数据源 当数据被移到数据仓库时,它们要经过转化,确保命名约定、编码结构、属性度量等的一致性 随时间而变化 从历史的角度提供信息(比如原创 2017-10-11 20:10:04 · 1005 阅读 · 0 评论 -
关联规则挖掘
基本知识 关联规则挖掘定义 给定事务的集合 T, 关联规则发现是指找出支持度大于等于 min_sup并且置信度大于等于min_conf的所有规则,min_sup和min_conf是对应的支持度和置信度阈值 关联规则挖掘目的 在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构 频繁模式:数据库中频繁出现的项集 项集(Itemset) k-项集:包含k个项的集合 频繁项原创 2017-10-11 22:27:33 · 906 阅读 · 0 评论 -
认识数据
复习笔记 数据是对描述对象的抽象 属性类型 标称、序数属性通常为离散的,区间和比率属性通常是连续的 数据类型 记录数据 图数据 有序数据 数据的统计描述 中心趋势(均值,众数,中位数) 数据的散布(极差,方差,四分位数等) 可视化(直方图、散点图) 数据的相似性 闵可夫斯基(Minkowski) 距离 p = 1,曼哈坦 (Manhattan)距离 p = 2,欧几里德(Euclidea原创 2017-10-11 16:28:10 · 299 阅读 · 0 评论 -
数据挖掘 - 分类
根据邵俊明老师的课件整理而成监督学习和无监督学习 无监督的学习关联规则聚类分析 监督学习分类预测 模型分类 生成模型Generative Model 判别模型 Discriminative Model 对比分类和预测 分类算法 决策树Decision Tree 决策归纳树算法 属性选择度量 信息增益ID3 增益率 C45 Gini Index 指标 CART 过拟合Overfitting问题 由决策原创 2017-12-20 20:56:45 · 6095 阅读 · 0 评论 -
聚类分析
根据邵俊明老师的课件整理而成 聚类分析Cluster Analysis 聚类分析的作用 聚类分析的目的 聚类算法 划分方法 partitioning method K - Means 算法 K - 中心点算法 层次的方法hierarchical method AGNES算法 DIANA算法 基于密度的方法density-based method DBSCAN 算法 基于网格的方法grid-based原创 2017-12-21 00:04:26 · 7298 阅读 · 0 评论 -
离群点(孤立点)检测
根据邵俊明老师的课件整理而成 离群点(孤立点)检测离群点 离群点是一个数据对象,它显著不同于其它数据对象,好像它是被不同的机制产生的一样 类型:全局离群点、局部离群点、集体离群点 异常数据通常作为噪音而忽略,许多数据挖掘算法试图降低或消除异常数据的影响 在有些应用领域识别异常数据是许多工作的基础和前提,异常数据会带给我们新的视角。 如在欺诈检测中,异常数据可能意味欺诈行为的发生,在入侵检测中异常数据原创 2017-12-21 10:01:15 · 4247 阅读 · 0 评论