数据挖掘
文章平均质量分 74
Frankabcdefgh
这个作者很懒,什么都没留下…
展开
-
数据挖掘--引论
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。数据清理(消除噪声和删除不一致数据)数据集成(多种数据源可以组合在一起)数据选择(从数据库中提取与分析任务相关的数据)数据变化(通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式)数据挖掘(基本步骤,使用智能方法提取数据模式)模式评估(根据某种兴趣度量度,识别知识的真正有趣模式)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)原创 2024-06-05 13:43:05 · 862 阅读 · 0 评论 -
数据挖掘--认识数据
分位数是描述数据集中某个位置的值,而分位数图则是以图形方式展示了数据集的整体分布情况。混合类型相异度计算的思想:按不同类型的属性(如数值型,二元变量,名义变量等),根据各自类型的计算方法计算之后再加权求和。欧式距离、曼哈顿距离(差值相加)、上确界距离(max|xi1-xi2|)(差值最大)闵可夫斯基距离:是对欧几里得距离的推广,可以理解为不同维度考察下的距离。最大,最小(不超过1.5倍IQR)(没有的话以最大观察值为准)相异性矩阵:存放n个对象两两之间的邻近度(任意两个之间的距离)原创 2024-06-06 17:49:22 · 601 阅读 · 0 评论 -
数据挖掘--数据预处理
数据清理缺失值如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。 更复杂的方法,可以将其转换为分类问题或数值预测问题噪声数据识别出噪音将其去除 -- 比如孤立点的识别 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。数据集成冗余和相关分析标称数据的x^2相关检原创 2024-06-06 18:03:32 · 937 阅读 · 0 评论 -
数据挖掘--数据仓库与联机分析处理
(面集时非)面向主题的:围绕某一主题来构建集成的:图片文字杂糅在一起时变的:随时间变化的数据非易失的:硬盘存放,不易丢失。原创 2024-06-07 09:41:40 · 560 阅读 · 0 评论 -
数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法
闭频繁项集:一个集合他的超集(包含这个集合的集合)在数据库里面的数量和这个集合在这个数据库里面的数量不一样,这个集合就是闭项集。,完成这一操作后,将它和题目中给出的最小支持度作比较,从而得到频繁1象集!拿到候选数据后,我们先筛选出候选频繁1象集,并算出它们的。候选3项集→频繁3象集的过程。后续同理,我们可以得到所有关系的置信度,最后我们再拿。如果这个集合还是频繁的,那么他就是极大频繁项集。频繁项集:出现的次数超过最小支持度计数阈值。1正相关,一个出现另一个就出现。原创 2024-06-07 09:54:16 · 980 阅读 · 0 评论 -
数据挖掘--分类
决策树:决策树是一种类似流程图的树结构,其中每个内部结点(非树叶节点)表示在一个属性上的测试,每一个分枝代表该测试的一个输出,而每个树叶节点存放一个类标号,树的最顶层及节点是根节点。原创 2024-06-08 12:41:58 · 675 阅读 · 0 评论 -
数据挖掘--聚类分析:基本概念和方法
聚类分析是把一个数据对象(或观测)划分成子集的过程。每一个对象都是一个簇。原创 2024-06-08 12:44:41 · 417 阅读 · 0 评论