![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
芒骁
用代码改变世界
展开
-
分类问题总结
分类任务: 确定对象属于哪个预定义的目标类。分类任务的输入数据是记录的集合,每条记录称为实例或者样例。分类任务:通过学习得到一个目标函数 f ,把每个属性集 x 映射到一个预先定义的类标号 y ,目标函数又称为分类模型, 用于解释并区分不同类的对象,或是预测数据集。分类的技术:有决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。分类需要一个训练集,通过训练集建立分类模...原创 2019-12-22 22:01:40 · 1005 阅读 · 0 评论 -
相似性与相异性度量的总结
主角: 数据对象数据对象与数据对象的相似性和相异性是重要的概念(学的太少,感受不多)相似性、相异性、邻近度(相似性和相异性的组合)有相似性和相异性,自然就有度量相似性的相似度和度量相异性的相异度。对象与对象之间一个属性(特征)的相似度和相似度比较(先从简单的开始)标称、序数、区间或比率的相似度如何度量?之前的正文里有多个特征的比较相异度。 距离 , 距离具有性质。(1)非负性;...原创 2019-12-22 19:48:51 · 613 阅读 · 0 评论 -
数据预处理总结
数据预处理目的:改善数据分析工作,减少时间,降低成本和提高质量。聚集,数据集的对象非常多时,可以将多个对象合并成单个对象,删繁就简,减少冗余,提炼数据价值,减少访问时间。抽样。唐人诗:“山僧不解数甲子,一叶落知天下秋。”,我们有时候真的做不到用全部的数据集去分析,但是我们只要做好抽取一部分样本的工作。后期分析也不一定效果会差。维归约,与聚集相对,合并的是维度,即多个旧属性合并成单个属性,降...原创 2019-12-22 19:17:17 · 1894 阅读 · 0 评论 -
数据相关知识总结
数据挖掘中的数据我们不叫它数据,而是把它叫做数据对象和数据集,联想一下你的购物单,数据对象就是一行一行的物品信息,而所有行数据对象构成数据集。数据对象具有价值,这里的数据对象通常是使用多个属性来描述的数据,就像一个人有四肢和头组成一样。属性是数据存在的依托。有了属性,属性天生多样,所以为了方便需要对其划分类型:标称、序数、区间、比率(按照相异性、序、加法、乘法是否有意义区分,当然划分的方法也不...原创 2019-12-22 18:51:57 · 1165 阅读 · 0 评论 -
学习数据挖掘前该知道的事
为什么需要数据挖掘技术?数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。数据量太大,无法使用传统的数据分析工具和技术处理它们即使数据集相对较小,但由于数据本身具有一些非传统特点(自己品),也不能使用传统的方法处理。面临的问题不能使用已有的数据分析技术来解决。一种新的技术需求产生数据挖掘技术是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结...原创 2019-12-01 10:53:23 · 231 阅读 · 0 评论 -
数据的质量——巧妇难为无米之炊
首先数据挖掘无法避免数据质量问题,因此数据挖掘着眼于两个方面:(1)数据质量问题的检测和纠正(2)使用可以容忍低质量数据的算法。第一步的检测和纠正,通常称为数据清洗(data cleaning)。2.2.1 测量和数据收集问题(1)测量误差和数据收集错误(2)噪声和伪像(3)精度、偏倚和准确率(4)离群点 (5)遗漏值(6)不一致的值(7)重复数据测量误差(measurement err...原创 2019-12-18 18:08:11 · 459 阅读 · 0 评论 -
数据对象与对象之间相似度与相异度的度量
为方便起见,我们使用术语邻近度(proximity)表示相似性或相异性。由于两个对象之间的邻近度是两个对象对应属性之间的邻近度的函数。我们首先介绍如何度量仅包含一个简单属性的对象之间的邻近度,然后考虑具有多个属性的对象的邻近度度量。名词概念解释定义:两个对象之间的相似度(similarity)的非正式定义是这两个对象相似程度的数值度量。通常,相似度是非负的,并常常在 0 (不相似)和...原创 2019-12-20 15:38:25 · 5969 阅读 · 0 评论 -
数据预处理
数据预处理的作用为了改善数据挖掘分析工作,减少时间,降低成本和提高质量。很有必要,就像做菜不洗菜,这样的人做出来的菜质量也不会好在哪里,没人愿意吃。数据预处理的思想与方法聚集(aggregation)将两个或多个对象合并成单个对象。 因为记录可能是分散的数量庞大的,比如一个菜市场一天的交易记录,这个交易量可以是很庞大的,如果按照每个卖家为对象进行交易量的聚集会更有序。...原创 2019-12-19 22:23:20 · 4537 阅读 · 0 评论 -
一、分类
分类基本概念分类:确定对象属于哪个预定义的目标类,分类是一个普遍性的问题。具有广泛应用。定义:分类任务就是通过学习得到一个目标函数 f ,把每个属性集 x 映射到一个预先定义的类标号 y。目标函数也称分类模型,可以用于:描述性建模: 分类模型可以作为解释性的工具,用于区分不同类中的对象。预测性建模:分类模型还可以预测未知记录的类标号。适用于:预测二元或标称类型数据。序数分类不太适用...原创 2019-12-13 09:44:30 · 521 阅读 · 0 评论 -
决策树
本文仅做记忆,大部分基础内容未提及。决策树的工作原理树中三结点:根结点、内部结点、叶结点或终结点。如何建立决策树?原则上讲,对于给定的属性集,可以构造的决策树的数目达到指数级。尽管某些决策树比其他决策树更准确,但是由于搜索空间是指数规模的,找出最佳决策树在计算上是不可行的,尽管如此,人们还是开发了一些有效的算法,能够在合理的时间内构造出具有一定准确率的次最优决策树。这些算法通常采用贪心策略...原创 2019-12-15 19:13:33 · 199 阅读 · 0 评论 -
模型的过分拟合
分类模型的误差分为两种:训练误差(training error)和泛化误差(generalization error)。一个好的分类模型不仅要能够很好的拟合训练数据而且对未知样本也要能准确的分类。模型拟合不足:当决策树很小时,训练和检验误差都很大,这种情况称作模型不足(model underfitting),出现拟合不足的的原因是模型尚未学习到数据的真实结构,因此,模型在训练集和检验集上的...原创 2019-12-16 16:10:09 · 2447 阅读 · 0 评论 -
训练误差与混淆矩阵
我们都知道混淆矩阵的定义,就不赘述了。混淆矩阵通过分类模型的预测准确率或者说是错误率来评估分类模型的性能。然而对于决策树来说,首先它是一个训练的过程,其实是没有预测行为的。然而我们知道可以根据乐观估计,也就是训练误差代替泛化误差来判断。训练误差,在决策树最终成型之后,最终具有共同特征的大部分点代表了这个共同特征的类型,但是有些点即使也有这些特征,它们也像异类一样本身不属于这个大部分群体,但它...原创 2019-12-19 16:41:11 · 1084 阅读 · 0 评论 -
关联模式的评估
在数据挖掘中,所有的强关联规则(即,满足最小支持度和最小置信度阈值)都有兴趣,值得向用户提供吗?我们如何识别哪些强关联规则是真正有兴趣的?关联模式的评估关联分析算法往往产生大量的规则,而其中很大一部分可能是不感兴趣的,因此,建立一组广泛接受的评价关联模式质量的标准是非常重要的。第一组标准可以通过统计论据建立——客观标准。涉及相互独立的项或覆盖少量事务的模式被认为是不令人感兴趣的,因为其...原创 2019-12-14 18:31:17 · 2785 阅读 · 0 评论 -
二、关联分析(上)
基本概念目的:用于发现隐藏在大型数据集中的有意义的联系,用关联规则或频繁项集的形式表示。处理关键问题:①从大型事务数据集中发现模式可能在计算中要付出很高的代价。② 所发现的某些模式可能是虚假的,因为可能是偶然发现的。1. 问题定义项集和支持度计数: I = { i1, i 2 ……}是购物篮中所有项的集合, T = { t1 , t2……} 是所有事务的集合。每个事务 ti 包含的项集...原创 2019-12-13 17:55:37 · 2062 阅读 · 0 评论 -
二、关联分析(下)
忽略那些前件或后件为空的规则,每个频繁k-项集能够产生多达 2k - 2个关联规则。关联规则的提取:将一个项集 Y 划分成两个非空的子集 X 和 Y - X ,使得 X -> Y - X 满足置信度阈值。首先这样的规则必然已经满足支持度阈值,因为它们是由频繁项集产生的。如何有效的从频繁项集中产生关联规则?一般,计算关联规则的置信度并不需要再次扫描事务数据集。规则{ A, B,C...原创 2019-12-14 09:39:34 · 1919 阅读 · 0 评论 -
聚类分析
1. 聚类概念与意义介绍:目的: 聚类分析将数据划分成有意义的或有用的组(簇)。如果目标是划分成有意义的组 ,则簇应当捕获数据的自然结构。然而,在某种意义下,聚类分析只是解决其他问题的起点。旨在理解的聚类 : 在对世界的分析和描述中,类,或在概念上有意义的具有公共特性的对象组,扮演者重要的角色。旨在实用的聚类: 聚类分析提供由个别数据对象到数据对象所指派的簇的抽象。此外,一些聚类技术使用簇...原创 2019-12-15 15:12:48 · 12799 阅读 · 0 评论 -
聚类分析之 K均值
基于原型的聚类技术创建是数据对象的单层划分。最突出的是 K 均值 和 K 中心点。K 均值用质心定义原型,其中质心是一组点的均值。通常,K均值聚类用于 n 维连续空间中的对象。可以用于广泛的数据,因为它只需要对象之间的邻近性度量。K 中心点使用中心点定义原型,其中中心点是一组点中最有代表性的点。基本 K 均值算法选取 K 个初始质心,其中 K 是用户指定的参数,即所期望的簇的个数。 ...原创 2019-12-17 15:22:04 · 3708 阅读 · 3 评论 -
聚类分析 之 凝聚层次聚类
old , but useful .两种产生层次聚类的基本方法:凝聚的: 从点作为个体簇开始,每一步合并两个最近的簇,需要定义簇的邻近性概念(开始每个点都是一个簇,然后不断合并减少簇的数量)。分裂的; 从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇。在这种情况下,我们需要确定每一步分裂哪个簇,以及如何分裂? 下面将先介绍凝聚层次聚类技术。2. 层次聚类层...原创 2019-12-17 19:46:59 · 14216 阅读 · 1 评论 -
3. DBSCAN
DBSCAN——一种基于密度的聚类算法(Density Based Spatial Clustering of Applications with Noise)可以在带有“噪音”的空间数据库中发现任意形状的聚类。基于密度的聚类寻找被低密度区域分离的高密度区域。DBSCAN是一种简单的、有效的基于密度的聚类算法。核心点(core point):这些点在基于密度的簇内部,点的邻域由距离函数和...原创 2019-12-18 09:20:43 · 2357 阅读 · 0 评论