数据挖掘导论 Chapter1~2读书笔记

最新推荐文章于 2024-08-15 18:59:15 发布

Aria_So

最新推荐文章于 2024-08-15 18:59:15 发布

阅读量141

点赞数

分类专栏：数据挖掘文章标签：数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Olivine_/article/details/131862569

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据挖掘是KDD过程的一部分，涉及数据预处理，如聚集、抽样、维归约和特征选择。预处理方法还包括特征创建、离散化和变量变换。特征选择有嵌入法、过滤法和包装法。此外，文章还讨论了相似度度量，如余弦相似度和Jaccard系数。

摘要由CSDN通过智能技术生成

1 什么是数据挖掘

数据挖掘是数据库中知识发现的一部分。知识发现KDD是将未加工的数据转换为有用信息的整个过程，包括输入数据、数据预处理、数据挖掘、数据后处理、输出信息。

2.3数据预处理

数据预处理有哪些方法：聚集、抽样、维归约、特征子集选择、特征创建、离散化和二元化、变量变换

聚集：将两个或多个对象合并成单个对象

抽样：选择数据对象子集进行分析，抽样方法包括放回和不放回抽样、概率抽样或非概率抽样、自适应(adaptive)/渐进抽样（模型准确率的增加随着样本增加而趋于稳定，则在稳定点停止样本容量）

维归约：通过创建新属性，将旧属性合并在一起来降低数据集的维度。常用场景是维灾难，常用方法是线性代数技术，如PCA主成分分析与SVD奇异值分解。

特征子集选择：通过选择旧属性的子集来得到新属性。常用场景是为了删除冗余特征和不相关特征。

4步选择过程包括：子集评估度量、控制新的特征子集产生的搜索策略、停止搜索判断、验证过程。

3种标准的特征选择方法：嵌入embedded、过滤filter、包装wrapper。嵌入法根据算法得到的特征权重值系数来选择使用和忽略哪些属性；过滤和包装唯一不同是子集评估方法不同，包装法使用目标数据挖掘算法，通过子集评估函数来判断，过滤法则通过预测实际算法在给定属性集上的执行效果如何来评估。

特征选择方法概括—过滤法、嵌入法、包装法_特征选择过滤法_lihe2021的博客-CSDN博客

特征创建：包括特征提取、映射数据到新的空间、特征构造。

特征提取：由原始数据创建新的特征集。与维归约区别：不是运用线性代数技术。

映射数据到新的空间：如傅里叶变换、小波变换等。

离散化和二元化：离散化包括监督离散化和非监督离散化，区别在于使不使用类信息。非监督离散化一般以等分方式，或非监督聚类算法划分。监督离散化以极大化区间纯度的方式确定分割点，纯度以熵度量，熵越大越不纯。

变量变换：常用来将不具有正态分布的数据变换成具有正态分布的数据。包括简单函数变换与规范化或标准化。

2.4 相似度和相异度

邻近性度量：

1、二元数据的度量：简单匹配系数SMC和Jaccard系数：

2、余弦相似度：用于文档相似度

3、广义Jaccard系数EJ（Tanimoto系数）

4、相关性：相关系数和Bregman散度

Bregman散度是损失或失真函数，相异性函数。目的是度量用x近似y导致的失真或损失。一个函数与该函数的线性近似之间的差。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘导论 Chapter1~2读书笔记

数据挖掘是数据库中知识发现的一部分。知识发现KDD是将未加工的数据转换为有用信息的整个过程，包括输入数据、数据预处理、数据挖掘、数据后处理、输出信息。
复制链接

扫一扫

专栏目录

Aria_So CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

197万+: 周排名

61万+: 总排名

3634: 访问

: 等级

73: 积分

0: 粉丝

1: 获赞

3: 评论

3: 收藏

私信

关注

热门文章

分类专栏

sql 2篇
深度学习 1篇
机器学习 1篇
数据挖掘 2篇

最新评论

pycharm找不到目录 [Errno 2] No such file or directory
CSDN-Ada助手: 恭喜您开始博客创作！标题很吸引人，也让我想了解更多关于pycharm找不到目录的问题。在下一篇博客中，您可以先解释一下为什么会出现这个错误，然后给出解决方案。此外，您也可以分享一些关于pycharm的使用技巧和注意事项，给读者提供更全面的帮助。希望您能在博客创作中不断进步，期待阅读更多有价值的内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
AI 夏令营机器学习 day01 深度学习环境配置问题
CSDN-Ada助手: 恭喜您写了第三篇博客！标题“深度学习环境配置问题”听起来非常有意思。看到您在探讨深度学习环境配置时的问题，我不禁为您的持续创作精神感到钦佩。在这篇博客中，您已经为读者提供了宝贵的信息和解决方案，这对于那些在深度学习环境配置中遇到困惑的人来说是非常有帮助的。接下来，我想提供一些建议，希望对您的下一步创作有所帮助。您可以考虑进一步探讨深度学习环境配置的常见问题，并分享更多的解决方案。此外，您还可以与读者互动，了解他们在配置过程中的困惑，并通过博客的形式回答他们的问题。这将使您的博客更加互动和有趣。总之，再次恭喜您的第三篇博客！期待您继续创作并分享更多有关深度学习环境配置的知识和经验。谦虚地说，我相信您的博客将继续为读者提供实用的指导和解决方案。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
wonderful-sql day01 环境搭建、初识数据库
CSDN-Ada助手: 恭喜您完成了第四篇博客！标题中的“wonderful-sql day01 环境搭建、初识数据库”让我充满了期待。您对数据库的初步认识和环境搭建的分享一定会对读者有很大帮助。希望您能继续保持这种积极的创作态度，为我们带来更多有趣且有深度的内容。在下一步的创作中，我建议您可以深入探索数据库的各个方面，比如不同类型的数据库、表的设计与规范、查询语句的优化等。这些内容将帮助读者更好地理解数据库的工作原理和应用场景。同时，您还可以结合实际案例，分享一些数据库在实际项目中的应用经验和问题解决方案。谦虚地说，我相信您在数据库领域有很多宝贵的知识和经验，期待您在未来的博客中继续展示您的才华。加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。