DM是做什么的？

最新推荐文章于 2024-05-07 13:32:24 发布

英雄史诗

最新推荐文章于 2024-05-07 13:32:24 发布

阅读量5.7k

点赞数 1

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/heroicpoem/article/details/80899954

版权

数据挖掘专栏收录该内容

10 篇文章 1 订阅

订阅专栏

一、DM的定义

数据中探查，发现未知的有用知识的过程。
与数据库中查询个别记录的数据检索不同。

二、DM的一般过程

1、数据收集
2、数据预处理
3、数据挖掘
4、后处理：模式过滤、可视化、模式表示
5、提供信息

DM设计中要考虑的问题：
1.可伸缩性：海量数据下算法依然可行
2.高维性：维度越高计算复杂度越高
3.非结构和复杂数据：如web数据、基因3D数据
4.数据分布：数据分开存储的，分布式计算
5.非传统分布？

三、DM的类型及举例

1、整体可分为2类：预测与描述
    1.预测：根据已知属性预测目标属性。
    2.描述：推倒数据中的潜在联系，需要验证和解释结果。
2、具体类型：
    1.回归：预测结果是连续值。如房屋大小与价格的关系。
    2.分类：预测结果离散值。如根据花萼、花瓣的长度、宽度判断是否是鸢尾花。
    3.关联：描述数据中的强关联特种。如超市结算单里，尿布+牛奶的关联购买分析。
    4.聚类：发现紧密相关的群组。如文档聚类，根据文章的关键词+词频度，自动对文章分类（不提供目标组的分类）
    5.异常检测：识别特征显著不同于其他数值的观测值。如信用卡欺诈消费。

习题：
2.数据挖掘在搜索引擎中的应用？
聚类：根据用户地域、搜索的词汇、使用时间、搜后行为等对用户自动分群，明确各种用户对象。
分类：根据用户使用习惯，看那些客户可能是广告客户？
关联：年龄与关注信息的关系？
异常检测：通过区域热搜词，提前进行舆论导向；意图犯罪识别？

其他

矩阵：起源是解线性代数的规范化表示。每一个行列点位代表一个变量，每个值代表变量的系数，最后一列代表方程值。
|1 2 3| 1x+2y=3
|4 5 6| 4x+5y=6,只要转换成
|1 0 -1| 就相当求解了。
|0 1 2 |

英雄史诗

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
DM是做什么的？

一、DM的定义数据中探查，发现未知的有用知识的过程。与数据库中查询个别记录的数据检索不同。二、DM的一般过程1、数据收集2、数据预处理3、数据挖掘4、后处理：模式过滤、可视化、模式表示5、提供信息DM设计中要考虑的问题： 1.可伸缩性：海量数据下算法依然可行 2.高维性：维度越高计算复杂度越高 3.非结构和复杂数据：如web数据、基因3D数据 ...
复制链接

扫一扫

专栏目录