一、DM的定义
数据中探查,发现未知的有用知识的过程。
与数据库中查询个别记录的数据检索不同。
二、DM的一般过程
1、数据收集
2、数据预处理
3、数据挖掘
4、后处理:模式过滤、可视化、模式表示
5、提供信息
DM设计中要考虑的问题:
1.可伸缩性:海量数据下算法依然可行
2.高维性:维度越高计算复杂度越高
3.非结构和复杂数据:如web数据、基因3D数据
4.数据分布:数据分开存储的,分布式计算
5.非传统分布?
三、DM的类型及举例
1、整体可分为2类:预测与描述
1.预测:根据已知属性预测目标属性。
2.描述:推倒数据中的潜在联系,需要验证和解释结果。
2、具体类型:
1.回归:预测结果是连续值。如房屋大小与价格的关系。
2.分类:预测结果离散值。如根据花萼、花瓣的长度、宽度判断是否是鸢尾花。
3.关联:描述数据中的强关联特种。如超市结算单里,尿布+牛奶的关联购买分析。
4.聚类:发现紧密相关的群组。如文档聚类,根据文章的关键词+词频度,自动对文章分类(不提供目标组的分类)
5.异常检测:识别特征显著不同于其他数值的观测值。如信用卡欺诈消费。
习题:
2.数据挖掘在搜索引擎中的应用?
聚类:根据用户地域、搜索的词汇、使用时间、搜后行为等对用户自动分群,明确各种用户对象。
分类:根据用户使用习惯,看那些客户可能是广告客户?
关联:年龄与关注信息的关系?
异常检测:通过区域热搜词,提前进行舆论导向;意图犯罪识别?
其他
矩阵:起源是解线性代数的规范化表示。每一个行列点位代表一个变量,每个值代表变量的系数,最后一列代表方程值。
|1 2 3| 1x+2y=3
|4 5 6| 4x+5y=6,只要转换成
|1 0 -1| 就相当求解了。
|0 1 2 |