数据挖掘
文章平均质量分 76
纫秋兰以为佩
我的公众号:一朵深渊
展开
-
数据挖掘概论
复习笔记数据挖掘定义 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 Data mining consists of applying data analysis and discovery algorithms that, under acceptable computational efficiency limitations, produce a p原创 2017-10-10 23:43:26 · 611 阅读 · 0 评论 -
数据预处理
复习笔记现实数据的缺陷:不完整、含噪声、编码不一致数据预处理的任务 数据清理:空缺值,噪声数据,删除孤立点,解决不一致性数据集成:集成多个数据库、数据立方体或文件数据归约:得到数据集的压缩表示,但可以得到相同或相近的结果数据变换:规范化和聚集数据离散化:将连续数据进行离散处理数据清理处理缺失值忽略元组人工填写全局值填充(如0,-∞)其属性的平均值填充与给定元组属同一类的所有原创 2017-10-11 16:49:13 · 437 阅读 · 0 评论 -
数据仓库
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程。 —W. H. Inmon数据仓库关键特征面向主题 关注决策者的数据建模与分析排除对于决策无用的数据,提供特定主题的简明视图数据集成 数据仓库集成了多个异种数据源当数据被移到数据仓库时,它们要经过转化,确保命名约定、编码结构、属性度量等的一致性随时间而变化 从历史的角度提供信息(比如原创 2017-10-11 20:10:04 · 1005 阅读 · 0 评论 -
关联规则挖掘
基本知识关联规则挖掘定义 给定事务的集合 T, 关联规则发现是指找出支持度大于等于 min_sup并且置信度大于等于min_conf的所有规则,min_sup和min_conf是对应的支持度和置信度阈值关联规则挖掘目的 在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构频繁模式:数据库中频繁出现的项集 项集(Itemset) k-项集:包含k个项的集合频繁项原创 2017-10-11 22:27:33 · 909 阅读 · 0 评论 -
认识数据
复习笔记数据是对描述对象的抽象属性类型 标称、序数属性通常为离散的,区间和比率属性通常是连续的数据类型 记录数据图数据有序数据数据的统计描述 中心趋势(均值,众数,中位数)数据的散布(极差,方差,四分位数等)可视化(直方图、散点图)数据的相似性 闵可夫斯基(Minkowski) 距离 p = 1,曼哈坦 (Manhattan)距离p = 2,欧几里德(Euclidea原创 2017-10-11 16:28:10 · 301 阅读 · 0 评论 -
数据挖掘 - 分类
根据邵俊明老师的课件整理而成监督学习和无监督学习无监督的学习关联规则聚类分析监督学习分类预测模型分类生成模型Generative Model判别模型 Discriminative Model对比分类和预测分类算法决策树Decision Tree决策归纳树算法属性选择度量信息增益ID3增益率 C45Gini Index 指标 CART过拟合Overfitting问题由决策原创 2017-12-20 20:56:45 · 6095 阅读 · 0 评论 -
聚类分析
根据邵俊明老师的课件整理而成聚类分析Cluster Analysis聚类分析的作用聚类分析的目的聚类算法划分方法 partitioning methodK - Means 算法K - 中心点算法层次的方法hierarchical methodAGNES算法DIANA算法基于密度的方法density-based methodDBSCAN 算法基于网格的方法grid-based原创 2017-12-21 00:04:26 · 7300 阅读 · 0 评论 -
离群点(孤立点)检测
根据邵俊明老师的课件整理而成离群点(孤立点)检测离群点离群点是一个数据对象,它显著不同于其它数据对象,好像它是被不同的机制产生的一样类型:全局离群点、局部离群点、集体离群点异常数据通常作为噪音而忽略,许多数据挖掘算法试图降低或消除异常数据的影响在有些应用领域识别异常数据是许多工作的基础和前提,异常数据会带给我们新的视角。如在欺诈检测中,异常数据可能意味欺诈行为的发生,在入侵检测中异常数据原创 2017-12-21 10:01:15 · 4247 阅读 · 0 评论