数据挖掘基本知识
Data Mining,即数据挖掘,是指从大量数据中挖掘或抽取知识,又称从数据库中知识发现(Knowledge Discovery from Database,KDD),它是指从大量数据抽取挖掘出未知的、有价值的模式或规律等,包括以下几个主要步骤:
- 数据清洗(Data Cleaning):清楚数据噪声和挖掘主题明显无关的数据
- 数据集成(Data Integration):将来自多数据源中的相关数据组合到一起
- 数据转换(Data Transformation):将数据转换为易于进行数据挖掘的数据存储形式
- 数据挖掘(Data Mining):利用智能方法挖掘数据模式或规律知识
- 模式评估(Pattern Evaluation):根据一定的评估标准从挖掘结果中筛选出有意义的模式知识
知识表示(Knowledge Presentation):利用可视化和知识表达技术,向客户展示所挖掘出的相关知识。
KDD与机器学习的区别:KDD是从现实世界中存在的一些具体数据中提取知识,这些数据在KDD出现之前早已存在。而机器学习所使用的数据是专门为机器学习而特别准备的数据,这些数据在现实世界中可能毫无意义。由于KDD使用的数据来自于实际的数据库,且处理的数据量可能巨大,因此KDD中的学习算法的效率和可扩充性就显得尤为重要。且数据的完整性、一致性和正确性都很难保证。此外,KDD可以利用目前数据库技术所取得的研究成果来加快学习过程,提高学习的效率。最后,由于KDD处理的数据来自于实际的数据库,