数据挖掘理论
文章平均质量分 80
chenlongzhen_tech
[声明] 此账号不在更新,请关注 http://blog.csdn.net/tech_chenlongzhen
展开
-
数据挖掘学习笔记1:引论
参考自王灿的数据挖掘课程数据挖掘的发展动力数据爆炸自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库,数据仓库或其他信息库中以待分析.有丰富的数据但缺乏有用的信息解决办法数据仓库(Data Warehouse)在线分析处理(OLAP)数据挖掘(挖掘感兴趣的知识)数据库技术的演化文件系统与数据库系统的区别数据库系统的特点数据存储(文件系统有)查询处理(sql)事务处原创 2015-05-09 17:27:52 · 645 阅读 · 0 评论 -
数据挖掘学习笔记2:数据预处理
问什么要数据预处理现实数据是”肮脏的”不完整的: 属性缺少含噪声的: 包含错误或者”孤立点”不一致的: 在编码和命名上存在差异没有高质量数据, 就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据预处理的主要任务数据清理: 填写空缺的值, 平滑噪声数据, 识别,删除孤立点, 解决不一致性数据集成: 集成多个数据库, 数据立方体或文件数据变换:规范化和聚集数据规约:得到数据集的原创 2015-05-10 14:07:00 · 752 阅读 · 0 评论 -
数据挖掘学习笔记3: 关联规则1
?关联规则挖掘从数据的项集之间发现有趣的, 频繁出现的模式关联和相关性. 购物篮分析,分类设计, 捆绑销售和亏本销售购物篮分析-如果问题的全域是商店中所有商品的集合, 则对每种商品都可以用一个不二良来表示该商品是否被顾客购买, 则每个购物篮都可以用一个布尔量表示; 而通过分析不二向量则可以得到商品被频繁关联或被同事购买的模式, 这些模式可以用关联规则表示.(ex. 10010010000 这种方原创 2015-05-10 14:26:48 · 1448 阅读 · 0 评论 -
数据挖掘学习笔记3: 关联规则2
多层关联规则数据项中经常会形成概念分层底层的数据项,其支持度往往也较低在适当的等级挖掘出来的数据项之间的关联规则可能是非常有用的通常, 事务数据库中的数据也是根据维和概念分层进行储存的在多个抽象层挖掘关联规则, 并在不同的抽象层进行转化. 是数据挖掘系统应该提供的能力挖掘多层关联规则的方法一直支持度vs递减支持度一直支持度: 对所有层都是用以致最小支持度 优点: 搜索时容易采用优化策原创 2015-05-12 22:29:11 · 2742 阅读 · 0 评论 -
数据挖掘学习笔记:关联规则3
ARCS过程中的步骤包括分箱(根据不同分箱方法创建一个2-D数组),本步骤的目的在于减少量化属性相对应的巨大的值个数,使得2-D栅格的大小可控 等宽分箱等深分箱基于同质的分箱找出频繁谓词集 扫描分箱后形成的2-D数组, 找出满足最小支持度和置信度的频繁谓词集 ARCS的局限性所挖掘的关联规则左手边只能是量化属性规则的左手边只能有两个量化属性(2-D栅格的限制)一种基于栅格的, 可以原创 2015-05-13 20:08:40 · 1943 阅读 · 0 评论 -
数据挖掘笔记:聚类分析
什么是聚类分析聚类(簇):数据对象的集合 在同一个聚类(簇)中的对象彼此相似不同簇中的对象则相异聚类分析: 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习:没有预定义的类编号聚类分析的数据挖掘功能 作为一个独立的工具来获得数据分布的情况作为其他算法(如:特征和分类)的预处理步骤?是好的聚类分析个好的聚类分析方法会产生高质量的聚类高类内相似度,低类原创 2015-05-16 20:13:29 · 1895 阅读 · 0 评论 -
数据挖掘笔记:分类和预测,判定树
1分类 - 预测分类号(或离散值) - 分局训练数据集和类标号属性, 构建模型来分类现有数据, 并用来分类新数据 2预测 - 建立连续函数值模型, 比如预测空缺值 3典型应用 欺诈检测、市场定位、性能预测、医疗诊断数据分类—一个两步过程第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器 假定每个元组属于一个预定义的类, 有一个类标号属性确定基本概念训练数据集:原创 2015-05-15 15:13:44 · 5340 阅读 · 1 评论 -
数据挖掘笔记:分类和预测bayes,svm等
bayes贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。 朴素贝叶斯分类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的影响都是一样的。后向传播分类后向传播是一种神经网络学习算法;神经网络是一组连接的输入/输出单元,每个连接都与一个权相连。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来学习。优点预测精原创 2015-05-15 15:18:43 · 1838 阅读 · 0 评论