数据挖掘导论
爱吃草莓的西瓜酱
这个作者很懒,什么都没留下…
展开
-
《数据挖掘导论》 第一章 绪论
第一章 绪论什么是数据挖掘?过程:输入数据->数据预处理->数据挖掘->后处理->输出信息数据预处理:特征选择维归约规范化选择数据子集后处理:模式过滤可视化模式表示数据挖掘的起源汇集其他学科的知识:来自统计学的抽样、估计和假设检验人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论需要其他领域的支撑:...原创 2019-02-19 21:36:05 · 259 阅读 · 0 评论 -
《数据挖掘导论》 第二章数据
这章还没看完,之后会持续更新的。。。。什么是数据Collection of data objects and their attributes特征值数值型的或者描述性的(男/女 --> 0/1)特征和特征值之间的区别:相同的属性可能被赋予不同的特征值,如身高的单位可能是米或者英尺不同的属性可以映射到相同的值集,如ID是无界的,age有最大值和最小值特征的类型...原创 2019-06-12 15:13:01 · 751 阅读 · 0 评论 -
数据挖掘 第四章 分类:基本概念、决策树与模型评估
第四章1. 分类技术Decision Tree based MethodsRule-based MethodsMemory based reasoningNeural NetworksNaïve Bayes and Bayesian Belief NetworksSupport Vector Machines2. 决策树归纳Hunt算法定义:如果Dt中所有记录都属于...原创 2019-06-12 15:07:36 · 427 阅读 · 0 评论 -
数据挖掘 第7章 关联分析:高级概念
第7章 关联分析: 高级概念本章就扩展到具有二元属性、分类属性和连续属性的数据集。扩充到包含 序列 和 图形如何扩展传统的Apriori算法来发现这些模式7.1 处理分类属性将分类属性和对称二元属性转换成项,就可以用已有的关联规则挖掘算法;将每个不同的属性-值对创建一个新的项(即转化为非对称二元属性)来实现将关联分析用于二元化后的数据时,需要考虑如下问题:合并不太频繁的属性值...原创 2019-06-12 15:13:16 · 714 阅读 · 0 评论 -
第三章 探索数据
探索数据有助于选择合适的数据预处理和数据分析技术处理一些通常由数据挖掘解决的问题包括三个主题:汇总统计、可视化、OLAP3.2 汇总统计频率和众数多用于分类数据百分位数多用于连续数据位置度量:均值和中位数均值对离群值很敏感 ——> 截断均值散布度量:极差和方差极差是最大值和最小值的差方差对离群值敏感,常常需要使用更稳健的估计:绝...原创 2019-06-12 15:08:20 · 240 阅读 · 0 评论 -
数据挖掘之第6章 关联规则:基本概念和算法
基本概念X->Y ,其中X和Y是不相交的项集支持度:给定数据集的频繁程度支持度很低的规则可能只是偶然出现通常用来删去那些无意义的规则置信度:确定Y在包含X的事务中出现的频繁程度通过规则进行推理具有可靠性关联规则不必然蕴含因果关系,只表示前件和后件中的项明显地同时出现从数据集提取的可能规则的总数很高,事先对规则进行剪枝,减少对支持度和置信度不必要的计...原创 2019-06-12 15:13:32 · 1283 阅读 · 0 评论