数据挖掘导论学习总结——第一章

最新推荐文章于 2022-09-10 00:01:06 发布

AAAlice0707

最新推荐文章于 2022-09-10 00:01:06 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/AAAlice0707/article/details/81710110

版权

Data Mining，即数据挖掘，是指从大量数据中挖掘或抽取知识，又称从数据库中知识发现（Knowledge Discovery from Database，KDD），它是指从大量数据抽取挖掘出未知的、有价值的模式或规律等，包括以下几个主要步骤：

数据清洗（Data Cleaning）：清楚数据噪声和挖掘主题明显无关的数据
数据集成（Data Integration）：将来自多数据源中的相关数据组合到一起
数据转换（Data Transformation）：将数据转换为易于进行数据挖掘的数据存储形式
数据挖掘（Data Mining）：利用智能方法挖掘数据模式或规律知识
模式评估（Pattern Evaluation）：根据一定的评估标准从挖掘结果中筛选出有意义的模式知识
知识表示（Knowledge Presentation）：利用可视化和知识表达技术，向客户展示所挖掘出的相关知识。

KDD与机器学习的区别：KDD是从现实世界中存在的一些具体数据中提取知识，这些数据在KDD出现之前早已存在。而机器学习所使用的数据是专门为机器学习而特别准备的数据，这些数据在现实世界中可能毫无意义。由于KDD使用的数据来自于实际的数据库，且处理的数据量可能巨大，因此KDD中的学习算法的效率和可扩充性就显得尤为重要。且数据的完整性、一致性和正确性都很难保证。此外，KDD可以利用目前数据库技术所取得的研究成果来加快学习过程，提高学习的效率。最后，由于KDD处理的数据来自于实际的数据库，

关注