DM是做什么的?

一、DM的定义

数据中探查,发现未知的有用知识的过程。
与数据库中查询个别记录的数据检索不同。

二、DM的一般过程

1、数据收集
2、数据预处理
3、数据挖掘
4、后处理:模式过滤、可视化、模式表示
5、提供信息

DM设计中要考虑的问题:
1.可伸缩性:海量数据下算法依然可行
2.高维性:维度越高计算复杂度越高
3.非结构和复杂数据:如web数据、基因3D数据
4.数据分布:数据分开存储的,分布式计算
5.非传统分布?

三、DM的类型及举例

1、整体可分为2类:预测与描述
    1.预测:根据已知属性预测目标属性。
    2.描述:推倒数据中的潜在联系,需要验证和解释结果。
2、具体类型:
    1.回归:预测结果是连续值。如房屋大小与价格的关系。
    2.分类:预测结果离散值。如根据花萼、花瓣的长度、宽度判断是否是鸢尾花。
    3.关联:描述数据中的强关联特种。如超市结算单里,尿布+牛奶的关联购买分析。
    4.聚类:发现紧密相关的群组。如文档聚类,根据文章的关键词+词频度,自动对文章分类(不提供目标组的分类)
    5.异常检测:识别特征显著不同于其他数值的观测值。如信用卡欺诈消费。

习题:
2.数据挖掘在搜索引擎中的应用?
聚类:根据用户地域、搜索的词汇、使用时间、搜后行为等对用户自动分群,明确各种用户对象。
分类:根据用户使用习惯,看那些客户可能是广告客户?
关联:年龄与关注信息的关系?
异常检测:通过区域热搜词,提前进行舆论导向;意图犯罪识别?

其他

矩阵:起源是解线性代数的规范化表示。每一个行列点位代表一个变量,每个值代表变量的系数,最后一列代表方程值。
|1 2 3| 1x+2y=3
|4 5 6| 4x+5y=6,只要转换成
|1 0 -1| 就相当求解了。
|0 1 2 |

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值