数据挖掘知识总结

最新推荐文章于 2022-06-27 21:02:58 发布

Yaroo

最新推荐文章于 2022-06-27 21:02:58 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签：数据挖掘

本文链接：https://blog.csdn.net/Yaroo/article/details/79164836

版权

本文总结了数据挖掘中的Apriori算法，指出其在处理大规模数据时存在的性能瓶颈，主要体现在两个方面。同时，讨论了如何利用Apriori算法进行页面分类，通过监督学习对Web页面进行有效分类。

摘要由CSDN通过智能技术生成

1. 数据、信息和知识是广义数据表现的不同形式。

2. 主要知识模式类型有：广义知识，关联知识，类知识，预测型知识，特异型知识

3. web挖掘研究的主要流派有：Web结构挖掘、Web使用挖掘、Web内容挖掘

4. 一般地说，KDD是一个多步骤的处理过程，一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。

5. 数据库中的知识发现处理过程模型有：阶梯处理过程模型，螺旋处理过程模型，以用户为中心的处理结构模型，联机KDD模型，支持多数据源多知识模式的KDD处理模型

6. 粗略地说，知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段，其中后面两种反映了目前知识发现软件的两个主要发展方向。

7. 决策树分类模型的建立通常分为两个步骤：决策树生成，决策树修剪。

8. 从使用的主要技术上看，可以把分类方法归结为四种类型：
a) 基于距离的分类方法
b) 决策树分类方法
c) 贝叶斯分类方法
d) 规则归纳方法

9. 关联规则挖掘问题可以划分成两个子问题：
a) 发现频繁项目集:通过用户给定Minsupport ，寻找所有频繁项目集或者最大频繁项目集。
b) 生成关联规则:通过用户给定Minconfidence ，在频繁项目集中，寻找关联规则。

10. 数据挖掘是相关学科充分发展的基础上被提出和发展的，主要的相关技术：
数据库等信息技术的发展
统计学深入应用
人工智能技术的研究和应用

11. 衡量关联规则挖掘结果的有效性，应该从多种综合角度来考虑：
a 准确性：挖掘出的规则必须反映数据的实际情况。
b 实用性：挖掘出的规则必须是简洁可用的。
c 新颖性：挖掘出的关联规则可以为用户提供新的有价值信息。

12. 约束的常见类型有：
单调性约束；
反单调性约束；
可转变的约束；
简洁性约束.

13. 根据规则中涉及到的层次，多层次关联规则可以分为：
同层关联规则：如果一个关联规则对应的项目是同一个粒度层次，那么它是同层关联规则。
层间关联规则：如果在不同的粒度层次上考虑问题，那么可能得到的是层间关联规

14. 按照聚类分析算法的主要思路，聚类方法可以被归纳为如下几种。
划分法：基于一定标准构建数据的划分。
属于该类的聚类方法有：k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。
层次法：对给定数据对象集合进行层次的分解。
密度法：基于数据对象的相连密度评价。
网格法：将数据空间划分成为有限个单元（Cell）的网格结构，基于网格结构进行聚类。
模型法：给每一个簇假定一个模型，然后去寻找能够很好的满足这个模型的数据集。

15. 类间距离的度量主要有：
最短距离

最低0.47元/天解锁文章

Yaroo

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘知识总结

1. 数据、信息和知识是广义数据表现的不同形式。2. 主要知识模式类型有：广义知识，关联知识，类知识，预测型知识，特异型知识3. web挖掘研究的主要流派有：Web结构挖掘、Web使用挖掘、Web内容挖掘4. 一般地说，KDD是一个多步骤的处理过程，一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。5. 数据库中的知识发现处理过程模型有：阶梯处理过程模型，螺旋处理...
复制链接

扫一扫

专栏目录