数据挖掘
文章平均质量分 89
NEFU数据挖掘
烟雨平生9527
没有谁的生活会一直完美,但无论什么时候,都要看着远方,满怀希望就会所向披靡
展开
-
数据挖掘实验(二)数据预处理【等深分箱与等宽分箱】
在分箱前,一定要先排序数据,再将它们分到等深(等宽)的箱中。常见的有两种分箱方法:等深分箱和等宽分箱。等深分箱:按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。等宽分箱:在整个属性值的区间上平均分布,即每个箱的区间范围设定为一个常量,称为箱子的宽度。原创 2023-10-04 11:24:41 · 5051 阅读 · 0 评论 -
数据挖掘实验(一)数据规范化【最小-最大规范化、零-均值规范化、小数定标规范化】
数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异,需要进行标准化处理。将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。原创 2023-10-03 22:16:09 · 4323 阅读 · 0 评论 -
数据挖掘(6)聚类分析
原则: 组内数据有较高相似度、不同组数据不相似相似性的度量(统计学角度):Q型聚类:对样本聚类(行聚类)R型聚类:对变量聚类(列聚类)间隔尺度变量(数值型变量):可加可比有序尺度变量(叙述型变量):不可加可比名义尺度变量(名义型变量):不可加不可比定义1:任意元素,间距离满足:适合:团簇状定义2:任意元素,间距离满足(类内平均距离)适合:团簇状定义3:对于任意元素,存在使得其满足(不要求任意两个元素)适合:长条状基于密度聚类方法。原创 2023-10-18 20:31:14 · 3382 阅读 · 1 评论 -
数据挖掘(5)分类数据挖掘:基于距离的分类方法
最常用的就是客户评估。原创 2023-10-15 20:28:50 · 1093 阅读 · 0 评论 -
数据挖掘(4)关联规则挖掘
假设我们有一个超市的销售数据,其中每个事务代表一个顾客购买的商品集合。我们希望使用Apriori算法来找出频繁购买的商品组合。其中每一行代表一个顾客的购买记录,数字代表不同的商品。我们希望找出至少有两个顾客购买的频繁商品组合。每个频繁项集都是一个行向量,表示一组频繁购买的商品。例如,第一个频繁项集。定义:真的任务相关的元组(事务)所占的百分比。将包含所有频繁项集。表示顾客经常购买商品1、2和3。置信度(certainty)支持度(support)原创 2023-10-07 23:46:53 · 1288 阅读 · 1 评论 -
数据挖掘(3)特征化
从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。原创 2023-10-04 20:40:56 · 2244 阅读 · 0 评论 -
数据挖掘(2)数据预处理
按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。在整个属性值的区间上平均分布,即每个箱的区间范围设定为一一个常量,称为箱子的宽度。主要检测并删除不相关、弱相关或冗余的属性维。使用属性的平均值来填充空缺值。回归、贝叶斯、判定树归纳确定。维 归 约 ( 重 点 )使用最可能的值填充空缺值。z-score规范化。原创 2023-10-03 16:37:59 · 1755 阅读 · 0 评论 -
数据挖掘(1)概述
PPT内容提取,考前三小时速通原创 2023-09-30 13:36:24 · 1604 阅读 · 0 评论