数据中的知识发现KDD和机器学习概念

最新推荐文章于 2023-02-23 09:05:32 发布

蛮小树

最新推荐文章于 2023-02-23 09:05:32 发布

阅读量951

点赞数 1

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39621784/article/details/104043409

版权

数据挖掘专栏收录该内容

4 篇文章 2 订阅

订阅专栏

数据中的知识发现的过程

（1）数据清洗：消除噪声和删除不一致的数据。
（2）数据集成：多种数据源可以组合在一起
（3）数据选择：从数据库中提取与分析任务相关的数据
（4）数据变换：通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式
(5)数据挖掘：基本步骤，使用智能方法提取数据模式。
（6）模式评估：根据某总兴趣度度量，识别代表知识的真正有趣模式
（7）知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识。

数据挖掘中的有趣模式（挖掘到知识）的特征。

（1）易于被人理解。
（2）在某种确信度上，对于新的检验数据是有效的。
（3）是潜在有用的。
（4）是新颖的。

模式兴趣度的客观度量

（1）X =>Y的的关联规则，一种客观度量基于是规则的支持度（support）。规则的支持度表示事物数据库中满足规则的事物所占的百分比。支持度可以取概率P(X U Y),其中X U Y 表示同时包含X和Y的事务. support(X=>Y) = P(X u Y)
(2)关联规则的另一种客观度量是置信度（confidence）,他评估所发现的规则的确信程度。置信度可以取条件概P(X I Y) ,即包含X也包含Y的概率 .confidence(X=>Y) = P(Y I X)

机器学习的概念

机器学习考察计算机如何基于数据学习（或提高他们的性能）。其主要应用领域之一是，计算机程序基于数据自动的学习识别复杂的模式，并做出智能的决断。

web搜素引擎的本质是大型数据挖掘应用

（1）爬行：决定应该爬过那些页面和爬行频率。
（2）索引：选择被索引的页面和决定构建索引的范围。
（3）搜素：决定如何排列各个页面，广告投放。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据中的知识发现KDD和机器学习概念

数据中的知识发现的过程（1）数据清洗：消除噪声和删除不一致的数据。（2）数据集成：多种数据源可以组合在一起（3）数据选择：从数据库中提取与分析任务相关的数据（4）数据变换：通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式(5)数据挖掘：基本步骤，使用智能方法提取数据模式。（6）模式评估：根据某总兴趣度度量，识别代表知识的真正有趣模式（7）知识表示：使用可视化和知识表示技术，向用户...
复制链接

扫一扫

专栏目录

蛮小树 CSDN认证博客专家 CSDN认证企业博客

码龄7年

7: 原创

23万+: 周排名

111万+: 总排名

2万+: 访问

: 等级

327: 积分

17: 粉丝

20: 获赞

5: 评论

107: 收藏

私信

关注

热门文章

分类专栏

数据挖掘 4篇
python

最新评论

数据挖掘第二章认识数据
qq_54422132: 是他题目抄错了，原题是4个35，总共是27个数(教材：数据挖掘概念与技术2.2题)
数据挖掘第二章认识数据
qq_54422132: 平均数也算错了，是29.96
数据挖掘第二章认识数据
小红红开心: 例子当中的众数错了
数据预处理
齐啸云龙: 不会做不要误人子弟啊，一堆堆错的，还发文章
数据预处理
Utopia……: 均值绝对偏差公式里yitaA是啥呀作者

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。