![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法与模型
文章平均质量分 79
hgz_dm
这个作者很懒,什么都没留下…
展开
-
关联分析(二):关联模式的评估
关联分析方法具有产生大量模式的潜在能力,在真正的商业数据上,数据量与数据维数都非常大,很容易产生数以千计、万计甚至百万计的模式,而其中很大一部分可能并不让人感兴趣,筛选这些模式,以识别最有趣的模式并非一项平凡的任务,因为“一个人的垃圾在另一个人那里可能就是财富”,因此建立一组广泛接受的评价关联模式质量的标准是非常重要的。评价标准可以通过客观统计论据建立,例如上一篇提到过得支持度与置信...原创 2019-04-08 16:43:15 · 5446 阅读 · 0 评论 -
P类问题、NP类问题与NPC类问题
(转载自作者 “Matrix67原创” 的文章,链接为:http://www.matrix67.com/blog/archives/105) 你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC问题。他们没有搞清楚NP问题和NPC问题的概念。NP问题并不是那种“只有搜才...转载 2018-10-08 18:51:09 · 6494 阅读 · 4 评论 -
关联分析(一):频繁项集及规则产生
关联分析用于发现隐藏在大型数据集中有意义的联系,属于模式挖掘分析方法,其为人熟知的经典应用当属沃尔玛超市里“啤酒与尿布”的关系挖掘了。关联分析的应用领域非常多,当数据集类型比较复杂时,进行关联分析采用的手段也相对复杂,本篇从最简单的事务数据集着手,对关联分析进行解读。对大型事务数据集进行关联分析时,有两个问题要考虑:发现关联模式时耗费的计算量 发现的关联模式是否可信关联分析...原创 2018-09-28 15:46:10 · 39222 阅读 · 3 评论 -
分类模型的评价及比较
当我们得到数据模型后,该如何评价模型的优劣呢?之前看到过这样一句话 :“尽管这些模型都是错误的,但是有的模型是有用的”,想想这句话也是挺有道理的!评价和比较分类模型时,关注的是其泛化能力,因此不能仅关注模型在某个验证集上的表现。事实上,如果有足够多的样本作为验证集来测试模型的表现是再好不过的,但即使是这样也存在一个难点,比如难界定多大的样本才能足够表现出模型的泛化能力。因此,一般的做...原创 2018-09-06 08:42:02 · 21513 阅读 · 4 评论 -
分类:决策树——剪枝
本篇是决策树系列的第二篇,介绍一下决策树的剪枝过程。过拟合是决策树构建过程中常见的问题,信息失衡、噪声等问题都会导致过拟合,剪枝则是提高决策树模型泛化能力的重要手段,下面对常用的剪枝方法作一些介绍。1.预剪枝 决策树系列第一篇《分类:决策树——树的生长》中提到过,树的生长是一种“完全”式的生长,终止条件也仅有“所有的样本属于同一类,或者所有的样本具有相同的属性值”...原创 2018-08-26 14:49:17 · 1485 阅读 · 0 评论 -
分类:决策树——树的生长
分类算法非常适合预测或描述标签为二元或标称类型的数据集,对于标签为序数类型的数据集,分类技术则不太有效,因为分类技术不考虑隐藏在序数中的“序”关系,对于标签其他形式的联系如子类与超类(包含的关系),分类技术也不太适合。 本文是分类模型系列的初篇,先介绍最基本的分类/回归模型——决策树模型。决策树分类模型打算分为三篇来说明,第一篇先说明决策树生长,第二篇介绍决策树的剪...原创 2018-08-22 17:35:32 · 2267 阅读 · 0 评论 -
贝叶斯估计
在之前的博文《统计学中频率学派与贝叶斯学派》中,陈述了一下贝叶斯学派的一些观点及方法,本文中则说一下贝叶斯估计方面的内容。 贝叶斯估计是依照贝叶斯定理进行了,该定理如下 ...原创 2018-08-18 16:11:29 · 2993 阅读 · 0 评论 -
数据可视化——多维缩放(MultiDimensional Scaling)
在上一篇博文《主成分分析》中,遗留了一个问题,即“降维后得到的主成分分量含义(或者说其代表什么意思)是什么?”,我在一本书上看到过一个例子,这里就用该例子对遗留问题做些说明。” Huba et al.(1981).收集了1684位洛杉矶学生消费13种合法和不合法兴奋性物质的数据,这些物质有:香烟、啤酒、红酒、酒精、可卡因、镇定剂、用于达到高潮的药房药剂、吗...原创 2018-07-30 10:35:53 · 7551 阅读 · 1 评论 -
数据可视化——主成分分析
( 这是我决定投入数据挖掘行业后边学边写的第一篇博客,一方面是记录,一方面也是加深理解,有诸多不足,但也算是有了一个开始。。。) 在数据挖掘过程中,当一个对象有多个属性(即该对象的测量过程产生多个变量)时,会产生高维度数据,这给数据挖掘工作带来了难度,我们希望用较少的变量来描述数据的绝大多数信息,此时一个比较好的方法是先对数据进行降维处理。数据降维过程不是简单提取部分变量...原创 2018-07-26 14:41:27 · 3151 阅读 · 0 评论 -
数据测量与相似性分析
这篇文章中主要记录如何分析样本间相似性的内容,相似性分析在分类算法(如K最邻近分类)和聚类任务中会涉及到。相似性分析基于样本属性取值,因此对于样本属性类型及其取值的特征也有必要说明。1.数据测量及属性分类 测量某个对象得到数据的过程实质上是描述该对象的属性(特征)、并将该属性映射到某个值上,在这些值上一般可以定义如下几种操作:相异性 、 序 ...原创 2018-10-22 16:58:58 · 8657 阅读 · 0 评论 -
分类:K最邻近分类
最邻近分类是分类方法中比较简单的一种,下面对其进行介绍1.模型结构说明 最邻近分类模型属于“基于记忆”的非参数局部模型,这种模型并不是立即利用训练数据建立模型,数据也不再被函数和参数所替代。在对测试样例进行类别预测的时候,找出和其距离最接近的个样例,以其中数量最多的类别作为该样例的类预测结果。 最邻近分类模型的结构可以用下图来说明,图中叉号表示输入的...原创 2018-10-24 16:03:27 · 4253 阅读 · 0 评论 -
分类:朴素贝叶斯分类方法
在很多的应用中,属性集与类别之间的关系是不确定的,换句话说,尽管测试样本的属性值与训练样本相同,但是也不一定能正确的预测其类别,其中一个原因是噪声的存在,另一个原因是某些影响分类的属性并没有出现在属性集中。贝叶斯方法都有所耳闻,之所以称为“朴素”贝叶斯方法,是因为在分类时,假定了“各变量间相互独立”的条件,这个条件算是比较强的了,大大简化了分类时的计算,但同时也丢失了一些分类准确性...原创 2018-11-01 11:58:59 · 2034 阅读 · 0 评论 -
分类:支持向量机(四)——非线性支持向量机
前面介绍的支持向量机都是在数据线性可分条件下的,但我们拿到训练数据时,并不一定能知道数据是否线性可分,低维数据可以通过可视化的方式观察是否线性可分,而高维数据则很难判断其是否线性可分了。对线性不可分数据强行构建线性支持向量机分类可能会导致很差的分类效果,本篇博文就介绍一下如何在数据线性不可分条件下构建非线性支持向量机。1.非线性情况 在二维空间中,考虑如下一组数据...原创 2019-03-13 20:15:10 · 4741 阅读 · 0 评论 -
分类:支持向量机(三)——软间隔最大化
在支持向量机系列的前两篇中,介绍了一下完全线性可分向量机的构建过程,本篇将在此基础上介绍一下不完全线性可分的情况下实现支持向量机软间隔最大化过程。1.线性分类时的两种情况 情况一: 考虑下面这张图中的情况,这些数据点是完全线性可分的,蓝色点与绿色点两类,分割线为紫色实直线 ...原创 2019-03-11 17:42:57 · 1599 阅读 · 0 评论 -
分类:支持向量机(二)——数值优化
在上一篇博客中,较为详细的介绍了在数据完全线性可分的情况下,构建SVM模型的目标,并将构建目标转化为最大化几何距离的优化过程,本篇就将介绍具体优化时的计算过程。还是一样的,先推荐几篇不错的博文,大家也可以参考链接中的文章学习。关于凸优化问题 http://www.360doc.com/content/18/0522/09/32196507_756021531.sh...原创 2019-02-18 17:23:05 · 1264 阅读 · 0 评论 -
分类:支持向量机(一)——完全线性可分
最初学习、理解支持向量机时,有点费劲,参考了一些不错的书籍和博客,这里推荐一下:http://blog.pluskid.org/?page_id=683 https://www.cnblogs.com/pinard/p/6097604.html 李航老师的《统计学习方法》1.支持向量机简介 支持向量机(Support Vector Machine,SVM)是一种...原创 2019-02-14 16:59:09 · 1215 阅读 · 0 评论 -
分类:基于规则的分类——RIPPER算法
在《分类:基于规则的分类技术》中已经比较详细的介绍了基于规则的分类方法,RIPPER算法则是其中一种具体构造基于规则的分类器的方法。在RIPPER算法中,有几个点是算法的重要构成部分,需要强调一下规则排序方式 RIPPER算法中采用的仍然是基于类的规则排序方式,不过独特的地方是,它先将各个类按频率(即类中包含的样本占总样本数的比例)从低到高排序,设是排序后的类,是最...原创 2019-02-04 16:07:14 · 7096 阅读 · 0 评论 -
探索性数据分析
探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,以此了解数据的特征,但实际中往往有很多...原创 2019-01-05 21:15:22 · 29514 阅读 · 0 评论 -
数据预处理过程
数据预处理过程会占用很多时间,虽然麻烦但也是必不可少且非常重要的一步。在数据能用于计算的前提下,我们希望数据预处理过程能够提升分析结果的准确性、缩短计算过程,这是数据预处理的目的。本文只说明这些预处理方法的用途及实施的过程,并不涉及编程方面内容,预处理的过程可以用各种各样的语言编程实现来实现。我个人始终是秉持着这样的观点:没有任何一种方法可以一成不变的被应用于任何任务中,依据实际任...原创 2018-12-27 16:50:05 · 45318 阅读 · 0 评论 -
开始挖掘数据前,该如何认识我们手上的数据?
(自己的认知与理解有限,文中错误、不当之处还请诸位不吝指出,大家共同进步) 数据是重要、应该被充分利用的,这一点大家都是认同的,就像我们的个人信息(尤其是手机号)被肆意的售卖,各种推销、诈骗电话屡见不鲜,虽然我们对此大为光火,但是对推销员和诈骗犯来说,人家确实利用到了数据,而且总能钓上几条鱼。作为一名数据挖掘工作者来说,可能没法在一线搜集数据,但是充分理解到手的数据是接下来一切工作...原创 2018-12-20 17:13:28 · 211 阅读 · 0 评论 -
对accuracy、precision、recall、F1-score、ROC-AUC、PRC-AUC的一些理解
最近做了一些分类模型,所以打算对分类模型常用的评价指标做一些记录,说一下自己的理解。使用何种评价指标,完全取决于应用场景及数据分析人员关注点,不同评价指标之间并没有优劣之分,只是各指标侧重反映的信息不同。为了便于后续的说明,先建立一个二分类的混淆矩阵 ,以下各参数的说明都是针对二元分类 ...原创 2019-09-02 16:34:13 · 2272 阅读 · 0 评论