![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 74
喷火龙与水箭龟
心若无异,万法如一
展开
-
泛统计理论初探——泛谈数据挖掘问题解决思路
数据挖掘-泛谈数据挖掘思路泛谈数据挖掘解决思路 在遇到数据挖掘或者机器学习的问题的时候,初学者经常不知道如何去解决这类问题,不知道如何去使用模型,本文将会给出一个大致的思路来进行决定,其中最重要的是当前问题所需要的数据是否完整,并且具体的问题是什么,模型只是整个数据挖掘的一个步骤,初学者不要过于迷恋一些厉害的模型。否则会对解决数据挖掘问题有阻碍。 在拿到一个泛数据挖掘问题的时候,首先要看是不是有数据,如果没有数原创 2021-04-24 10:40:09 · 337 阅读 · 0 评论 -
泛统计理论初探——初探Blending策略
数据挖掘-Blending策略简介浅谈Blending方法 在上一篇文章里,介绍了一个融合学习的方法,也就是Stacking方法,本次文章将会介绍一个在实战里很广泛实用的策略,就是Blending方法,翻译过来是混合策略,它的思路有点类似Stacking,都是利用之前模型训练并预测的结果作为当前模型的输入,但是Blending方法的处理思路和步骤相对于Stacking来说更为简单一些。 对于融合学习的策略来说,原创 2021-04-18 12:34:00 · 334 阅读 · 0 评论 -
泛统计理论初探——初探Stacking策略
数据挖掘-Stacking策略简介浅谈Stacking方法 在之前的文章里,我们谈过一些模型融合的策略,比如Bagging策略、Boosting策略等,并且它们都有一些代表性的方法,比如Bagging策略里最有代表性的方法是RF随机森林,而Boosting策略里面最有代表性的方法是GBDT梯度提升树。那么本次要讨论的Stacking方法也是一种模型融合的策略,只不过它不是简单的串行提升或者并行投票,而是采用堆叠的形式进行各个模型的融合,Stacking方法的原创 2021-04-10 09:40:25 · 394 阅读 · 0 评论 -
泛统计理论初探——初探AdaBoost方法
数据挖掘-AdaBoost方法简介初探AdaBoost方法 本文将会介绍AdaBoost方法,之前的文章介绍过Boosting方法的思路,以及一些常见的Boosting方法原理,比如GBDT梯度提升树、XGBoost等算法,本次文章介绍的AdaBoost方法是一种比较简单但是非常实用的提升算法,这种算法其实是一种处理问题的思路或是框架,不能完全称之为具体的算法。它的核心目标就是在同一个数据集上,使用不同的弱分类器进行训练,并且通过调整权重来对分类器进行组合,原创 2021-04-03 14:21:36 · 333 阅读 · 2 评论 -
泛统计理论初探——初探XGBoost方法
数据挖掘-XGBoost方法简介初探XGBoost方法 在本文中将会继续介绍集成学习里的boosting思路,并且会选用XGBoost方法来介绍。XGBoost是一种优化过的提升学习方法,该方法在一些竞赛或者项目中经常被使用,它的预测正确率是比较高的,总体来说性能不错。其实从该方法的名字我们可以发现,这是一种在GBDT方法的基础上进行优化的方法,该方法可以直接用作预测或者和其他机器学习算法一起进行预测。 我们如原创 2020-08-29 19:25:05 · 751 阅读 · 0 评论 -
泛统计理论初探——再谈梯度提升树之优化方法
数据挖掘-再谈GBDT算法再谈梯度提升树 在上一篇文章中,我们简要介绍了GBDT的思路和基本的实现步骤,本次文章主要是介绍如何各个细节去优化梯度提升树GBDT的模型准确率和稳健性,以及防止GBDT模型过拟合的技巧。我们将从下面三个大方向去介绍如何优化GBDT模型,分别是损失函数的选择技巧、超参数的优化方法、正则化选项的加强,从而使得模型的准确率史高、泛化性更好、稳健性更强。 在选择损失函数的时候,以梯度提升回归树为例,常见的损失函数就原创 2020-08-21 22:38:19 · 982 阅读 · 0 评论 -
泛统计理论初探——浅谈梯度提升树方法
数据挖掘-初探GBDT算法初探梯度提升树 在之前的文章中,我们介绍过集成学习里的提升学习的思路,本文主要是基于提升学习的思路来介绍这种常见的提升学习方法,也就是梯度提升树,俗称GBDT,是常见的提升学习方法之一。该方法和另一种经典的提升学习方法AdaBoost不一样的是,AdaBoost是将每一次预测的错误样本进行权重的提升,使得后续的分类器能够注意到这个预测错误的样本。而对于GBDT来说,它本身就是一种串行的树的组合,每一次分类器只需要大致预测出即可,通过一次次的逼近原创 2020-08-15 20:56:52 · 647 阅读 · 0 评论 -
泛统计理论初探——初探二阶梯度下降方法
数据挖掘-介绍二阶梯度下降方法二阶梯度下降方法简介 在之前的文章中介绍各类的一阶梯度下降方法,同时还介绍了各种优化或者加速的方法,可以帮助更快更好地收敛到最优点。但从本质上来说,那些方法都是一阶的方法,即利用了损失函数的一阶导数的信息进行迭代,没有对于二阶导数的信息进行使用。本文主要介绍常见的二阶梯度下降方法,比如牛顿法、拟牛顿法等,在一般情况下,二阶梯度下降方法不经常使用,虽然它的下降速度比一阶梯度下降要更快;但是它的缺点也非常明显,就是二阶梯度计算的速度非常消耗资源原创 2020-07-11 09:31:24 · 2035 阅读 · 0 评论 -
泛统计理论初探——模型泛化能力增强技巧
数据挖掘-机器学习模型泛化增强技巧机器学习模型泛化能力增强技巧简介 在之前的文章中,我们已经介绍了三种提高模型泛化能力的方法,即前一篇文章介绍的L1正则化、L2正则化、DropOut方法。在本文中,我们将会从数据角度、模型训练角度、策略角度进行提高模型泛化能力的方法介绍,尝试在处理问题的不同阶段使用技巧提升模型的泛化能力。本文主要介绍数据增强、参数共享、早停处理、多任务学习这几种技巧,下面分别进行介绍。 首先介绍数据增强方法,该方法其原创 2020-07-04 13:43:43 · 1355 阅读 · 0 评论 -
泛统计理论初探——常见正则化技巧简介
数据挖掘-正则化方法简介常见正则化方法介绍 正则化方法是数据挖掘或者神经网络应用里常见的一种方法,该类方法其实是一种对于过拟合进行优化的思路,即当模型在训练集和测试集的预测准确率差距非常大的时候,比如模型在训练集预测准确率有98%,而在测试集预测的准确率只有70%,那么这个时候就可能是模型训练的过拟合了,需要使用多种方式加强模型的泛化能力,本文主要是介绍正则化方法来加强这种泛化能力。 那么正则化方法其实常见的就是L1正则化、L2正则化原创 2020-06-27 16:05:10 · 694 阅读 · 0 评论 -
泛统计理论初探——探讨梯度下降学习率优化技巧
数据挖掘-梯度下降学习率优化简介学习率优化方法简介 本文准备介绍的主要内容是在梯度下降方法中,对于学习速率这个超参数的优化思路。在之前的三篇文章里,分别介绍了对梯度本身的优化的常见策略和技巧,但是没有对学习速率的优化进行介绍,因此本文来介绍几种常见的学习速率优化技巧。 在最早的批量梯度下降或者随机梯度下降方法中,学习速率这个参数是一个常数,比如0.1,但是在神经网络的发展过程中,经常会出现一些问题,常见的就是陷入局部最优值和梯度下降速原创 2020-06-21 09:35:30 · 589 阅读 · 0 评论 -
泛统计理论初探——梯度下降新方法简介
数据挖掘-梯度下降新方法简介梯度下降新方法简介 在之前的两篇文章里,我们介绍了梯度下降方法的历史和演变,从批量梯度下降、随机梯度下降方法到后续的新方法如动量加速法、AdaGrad、RMSprop、Adadelta方法等,本文再介绍几种比较新的梯度下降方法,即Adam方法、以及在这个基础上的AdaMax、AMSGrad等优化方法。主要是介绍Adam方法,其他的几种方法是在Adam方法上的一种再优化,可能适应特定的问题,某种程度有可能不如Adam方法更好。 &n原创 2020-06-12 07:39:07 · 533 阅读 · 0 评论 -
泛统计理论初探——再谈梯度下降方法优化
数据挖掘-再谈梯度下降优化方法再谈梯度下降优化方法 在上一篇文章,我们简单的介绍了梯度下降方法和一些简单的优化方法,比如随机梯度下降方法可以对原有的梯度下降方法进行优化和加速,在这个基础上又有小批量梯度下降方法和动量加速梯度下降方法进行优化,防止最后下降的震荡现象,可以更加快速得到最终的稳定最优解。本文要在上次文章的基础上,再介绍一些常见的梯度下降优化方法,也是最近十几年提出的一些方法,因为之前文章提出的动量加速随机梯度下降方法是上世纪60年代提出的,时间比较早,经过这原创 2020-06-05 22:35:01 · 487 阅读 · 0 评论 -
泛统计理论初探——梯度下降方法简要比较
数据挖掘-简要比较梯度下降方法梯度下降方法初探 本文的内容主要是介绍几种简单的梯度下降方法,比如随机梯度下降方法、小批量梯度下降方法,并对它们的优缺点进行比较,梯度下降方法是一种求解凸函数的常见学习方法。我们都知道在机器学习中的损失函数一般是凸函数,当然随着深度学习的发展,很多损失函数都不是凸函数,这个时候使用梯度下降方法可能效果就不好,会陷入局部最优点而停止下降。本文讨论的梯度下降方法假设针对的是损失函数为凸函数的情况,其他的下降方法会在后续文章中介绍。原创 2020-05-30 11:20:34 · 513 阅读 · 0 评论 -
泛统计理论初探——常见损失函数初探
数据挖掘-常见损失函数初探常见损失函数简介在之前的文章中,我们介绍过各种计算准确率的指标,在本文中我们将会介绍常见的损失函数并做出比较,讨论使用的场景和各个损失函数的优缺点。首先我们来认识损失函数,常见的有监督数据挖掘问题无外乎两类,即分类问题和回归问题,即因变量是离散值或连续值。目标是寻找一种函数或者说是规则去最大程度的逼近或是预测原有的数据分布和结果,因此我们需要引入损失函数,损失函数是当前所有真实数据与预测结果的差值的汇总,即我们需要一个函数去体现预测效果,这个函数就是损失函数。而大多数有监督学原创 2020-05-22 20:55:31 · 480 阅读 · 0 评论 -
泛统计理论初探——文本挖掘中的主题模型
数据挖掘-初探主题模型文本挖掘之主题模型本次的文章中将介绍文本挖掘中最常见的模型,即主题模型。主题模型又称之为LDA,即Latent Dirichlet Allocation,英文直译是潜在狄利克雷分布。该模型是通过构造文章/主题以及主题/单词这两种分布组成整个主题模型的,而构造的方式是通过构造各个单词和主题的极大似然函数、构造各个主题和文章的极大似然函数这两种分布,最后通过主题去区分每篇文章,从而达到了文本分类的效果。LDA模型和之前文章讨论过的词袋模型的思路很像,词袋模型是把词语和文章通过出现频率原创 2020-05-16 10:33:21 · 784 阅读 · 0 评论 -
泛统计理论初探——均值漂移算法初探
数据挖掘-均值漂移聚类算法均值漂移聚类算法简介本文主要是介绍均值漂移聚类算法,又称为Mean-Shift-Cluster,该算法属于无监督学习的聚类方法。主要从算法的使用场景、步骤、核心思路等角度去介绍算法。之前其实也介绍过一些聚类的算法,比如Kmeans、DBSCAN等方法,本次介绍的均值漂移聚类算法是一种基于质心的算法,该方法最终找出的是数据点密集的区域。均值漂移聚类算法和本人之前文章介...原创 2020-04-24 20:50:58 · 837 阅读 · 0 评论 -
泛统计理论初探——孤立森林简介
数据挖掘-孤立森林方法孤立森林算法简介孤立森林是一种用于异常检测的算法,本文将对该算法进行简介,包括算法的理念、步骤、以及使用场景。常见的异常检测方法主要是统计学课本上学到一些方法,比如六西格玛方法、线性回归检测方法、箱线图检测方法、主成分分析方法等。上述的这些方法是比较常见的,比如六西格玛方法就是根据数据分布计算均值u和标准差s,得出在u-3s和u+3s之外的数据就是异常数据;比如箱线图检...原创 2020-04-18 13:08:02 · 719 阅读 · 0 评论 -
泛统计理论初探——Kmeans算法优化技巧简介
数据挖掘-Kmeans算法优化技巧Kmeans优化方法简介在之前的文章中已经介绍了Kmeans方法的原理和步骤,Kmeans方法是一种常见的聚类方法,但是由于它的一些缺点导致聚类的效果一般,比如初值K的选取会影响聚类的效果。与此同时,由于Kmeans适用于球形簇的数据分布,而当数据的分布是其他分布的时候,直接使用Kmeans方法是不合适的,聚类的效果会非常差。针对上述两类的问题,本文主要介绍...原创 2020-04-10 22:53:44 · 549 阅读 · 0 评论 -
泛统计理论初探——DBSCAN方法简介
数据挖掘-聚类算法之DBSCANDBSCAN算法简介在之前的文章里,我们探讨了最常见的一种聚类算法,即Kmeans算法,在本文中,我们将简要介绍DBSCAN算法,同时将比较DBSCAN方法相对于Kmeans的优缺点。DBSCAN全称是Density-Based Spatial Clustering of Applications with Noise从英文的释义就可以明确,该算法是基于密度...原创 2020-04-04 21:12:31 · 509 阅读 · 0 评论 -
泛统计理论初探——超参数优化简介
数据挖掘-超参数优化简介超参数调优方法简介本文对机器学习中的常用的超参数方法进行介绍,希望初学者在机器学习的过程中能够认识到超参数的调优是非常重要的一个步骤。首先我们明确,什么是超参数。超参数其实就是不属于模型本身的一种参数,这种参数不受模型本身所控制。比如在梯度下降法中使用的步长、训练过程中的迭代总次数。这些在一般情况下都是人为设置的,不受模型本身影响的。一般来说,常用的超参数调优方法有网...原创 2020-03-14 09:11:48 · 467 阅读 · 0 评论 -
泛统计理论初探——过拟合与欠拟合探讨
数据挖掘-过拟合与欠拟合的简介过拟合与欠拟合简介在我们数据挖掘的学习中,经常会出现过拟合和欠拟合的情况。比如使用BP神经网络进行预测的时候,可能会造成数据的过拟合;使用简单的一元线性回归的进行预测的时候,可能会造成数据的欠拟合。本文来介绍过拟合和欠拟合的概念以及改进方法。首先要明确过拟合和欠拟合的概念,欠拟合指的是模型在当前的训练数据上预测的效果和真实的结果差距较大,还有较大的提升空间;过拟...原创 2020-03-06 21:03:27 · 460 阅读 · 0 评论 -
泛统计理论初探——模型评估的验证策略
数据挖掘-模型验证策略简介模型评估的验证策略简介在数据挖掘和机器学习的过程中,我们需要对使用的模型的预测效果进行评估,有时候由于测试集或者验证集选择的不够好或是数据本身的样本就非常少,导致了模型的评估不够准确。下面我们将介绍使用的较多的三种模型评估的验证策略,即K折交叉验证、留一法、自助法。在拿到一份数据后,传统的方法会把数据分为1个训练集与1个测试集,然后在训练集上调试模型,把模型拿到测试...原创 2020-02-28 16:12:54 · 589 阅读 · 0 评论 -
泛统计理论初探——因变量连续的模型准确率评价指标
数据挖掘-因变量连续的预测评价指标因变量连续的准确率指标探究在之前文章的内容中,我们探讨了衡量机器学习准确率的指标,比如auc指标、精确率、召回率等。从因变量的角度来说,那些指标其实是衡量因变量为离散变量的情况下使用的,从预测结果中统计预测正确和错误的数量去构建指标,从而达到预测效果是否准确的判定。但是当因变量为连续变量的时候,预测的结果不太可能刚好和结果相同,比如身高178厘米,通过某个预测...原创 2020-02-14 14:56:40 · 2169 阅读 · 0 评论 -
泛统计理论初探——文本挖掘中的词袋模型
数据挖掘-初探文本挖掘文本挖掘之词袋模型在我们开始接触文本挖掘的时候,一般都会有疑问,什么是文本挖掘,作者认为可以通过文本挖掘来得出文章的主题、特征等,也可以通过当前的词义、语义、语境等上下文信息进行预测,文本挖掘的用处十分广泛,比如比较两篇文章的风格判断作者是否同一个人,比如通过RNN、LSTM等模型生成诗歌、散文等。而我们最早接触的文本挖掘,其实是是通过分词开始进行学习的,即把一篇文章分为...原创 2020-02-07 15:55:41 · 581 阅读 · 0 评论 -
泛统计理论初探——机器学习预测评价指标
数据挖掘-介绍预测评价指标机器学习预测指标简介在我们学习数据挖掘的过程中,在刚开始学习的时候认为只要预测正确的准确率越高的模型一定是越好的,但是当我们往后学习的时候,接触到了一些新的问题的时候,我们会发现最开始衡量预测正确的准确率指标是不够客观的,下面来介绍一些常见的机器学习的预测指标,以此学习更为客观合理的评价指标。首先我们来看传统的预测评价指标,即准确率。准确率=预测正确数/总数这种指...原创 2020-01-24 14:12:52 · 4803 阅读 · 0 评论 -
泛统计理论初探——Kmeans方法简介
数据挖掘-探讨Kmeans算法Kmeans算法简介众所周知,机器学习分为有监督学习和无监督学习两种。对于有监督学习的情况,一般根据被解释变量是否连续,分为分类问题和回归问题,在之前的文章中已经有过讨论。在本文中,我们将讨论无监督学习中的一种聚类方法,即Kmeans算法。该算法被称为K均值方法,从字面上的意思就可以看出,确定参数K非常重要。实际上,K均值方法的主要思想是采用距离作为衡量两个实体之...原创 2019-12-06 22:50:26 · 2264 阅读 · 0 评论 -
泛统计理论初探——集成学习之Bagging方法探讨
数据挖掘-探讨Bagging方法浅谈装袋方法在传统分类问题中,我们通常使用基本的分类器去得到模型,比如朴素贝叶斯模型、决策树方法、logistic模型等。但这些基本的分类器的预测正确率都是较为一般的,在处理实际问题中,这些模型的准确率可能在70%~85%之间。如果还想进一步提高预测准确率的话,可以选择使用深度学习的神经网络预测或是集成学习的方法进行预测。在某些问题上,如图像分类问题、语音识别...原创 2019-11-01 21:53:39 · 850 阅读 · 0 评论 -
泛统计理论初探——集成学习之提升方法探讨
数据挖掘-探讨提升方法浅谈提升方法在传统的分类问题的情况中,不管是决策树或是朴素贝叶斯等方法,都是对训练数据进行训练,然后得到模型来去进行预测。这次我们谈的提升方法(boosting)本质上是集成学习的一种,另一种是bagging方法,我们下一次再讨论。提升方法其实是一种机器学习思路,目标是通过多次学习得到多个分类器,然后将多个分类器进行加权的线性组合,然后得出一个预测性能更好更稳健的分类器...原创 2019-10-19 20:01:10 · 630 阅读 · 0 评论 -
泛统计理论初探——非线性支持向量机探讨
数据挖掘-非线性支持向量机探讨非线性支持向量机探讨在之前的两篇支持向量机文章的介绍中,阐述了支持向量机的原理与线性的支持向量机的本质以及最大间隔的直观含义,在本文中,我们将继续观察支持向量机,当遇到线性不可分的数据时,介绍如何使用核技巧进行处理。上图1可以理解为数据在直观上是线性不可分的,我们假设有一个超曲面是椭圆可以较好地分割数据。当它进行核技巧进行处理后,得到在新的空间中是如上图2...原创 2019-10-13 10:07:45 · 453 阅读 · 0 评论 -
泛统计理论初探——再谈支持向量机
数据挖掘-再谈支持向量机再谈支持向量机上一篇文章我们谈到了支持向量机的名称是如何由来的以及支持向量机基本的原理。同时我们也讨论了函数间隔和几何间隔的差异,并给出了函数形式。下面在这篇文章中,我们将接着上文继续讨论如何做到间隔最大化以及探讨在数据线性可分时,如何做到硬间隔最大化。在上述几何间隔公式的基础上,我们进一步的去理解支持向量机这种方法的本身目的,该方法是想通过求解几何间隔最大的超平面...原创 2019-10-05 21:25:08 · 440 阅读 · 0 评论 -
泛统计理论初探——支持向量机探讨
数据挖掘-支持向量机初次探讨浅谈支持向量机支持向量机方法又称为支撑向量机,其本质是一种基于二分类的分类模型。最初使用这种模型是为了解决线性的分类问题,即线性的支持向量机;后来引入了核函数进行处理,使得支持向量机可以通过提升维度的手段将线性不可分的问题转化为线性可分,即非线性的支持向量机。我们从最简单的二分类问题入手,假设有一群人的身高数据,这群人分为两类,第一类是一些篮球运动员的身高,记录这...原创 2019-09-28 20:51:44 · 434 阅读 · 0 评论 -
泛统计理论初探——Logistic模型探讨
数据挖掘-Logistic模型探讨浅谈Logistic回归在经典的线性回归基础上,我们知道,经典的线性回归是解决因变量是连续的变量的问题。而在现实生活中,因变量是离散变量更为常见一些。为了解决因变量是离散的问题,即分类问题,线性回归模型进行调整,得到了经典的logistic回归模型,这个模型可以很好的解释各个特征是如何影响因变量的,并且该模型的预测能力较强,可以较好的解决许多分类问题。经典的...原创 2019-09-21 09:50:00 · 667 阅读 · 0 评论 -
泛统计理论初探——浅谈回归问题
数据挖掘-回归问题探讨浅谈连续回归和离散回归众所周知,回归问题可以根据因变量的离散或连续分为连续回归(线性回归、非线性回归)与分类回归。其中,为了解决分类回归问题,在经典的回归假设基础上,引入了对数几率的概念,将数值转化为概率,并通过设定阈值最终确定因变量的类型。传统的回归方法是研究因变量是连续的问题,比如研究影响身高的因素,身高是一个相对连续的量,因此该类问题是通过线性回归可以进行研究的。...原创 2019-09-13 22:59:52 · 712 阅读 · 0 评论 -
泛统计理论初探——决策树
数据挖掘-决策树决策树算法决策树是一种较为常见的算法,该方法在各个社科领域有较为频繁的使用。该方法的本质可以理解为,由多个特质变量的临界值构建得到的决策树,该决策树可以帮助决策者解决一些实际的问题。在早期的决策树方法中,是使用熵值对变量的信息复杂度进行衡量并排序,信息量更复杂的变量会进入较前的序列,最终形成一个变量的序列,该序列的顺序即代表决策树的每一层的分类标准。当该序列形成后,即可把训练...原创 2019-09-08 09:28:02 · 672 阅读 · 0 评论 -
泛统计理论初探——朴素贝叶斯
数据挖掘-朴素贝叶斯朴素贝叶斯算法朴素贝叶斯算法是机器学习里较为初级的算法,它的朴素的含义是因为翻译的问题,英文是Naive Bayes,即简单贝叶斯。该方法在初期被提出时常被用于识别垃圾邮件,是较为经典的基于概率的一种分类方法。在竞赛中会使用该方法做一个初步的使用,也可以在集成学习中把该方法作为一种独立的预测方法和其他预测方法一起集成预测。有基本概率论基础的朋友一定知道,该方法其实和概率...原创 2019-08-31 13:24:59 · 763 阅读 · 0 评论 -
泛统计理论初探——KNN
数据挖掘-knnKNN算法KNN算法是机器学习里较为简单和初级的算法,也称为最近邻算法。可以算的上是学习数据挖掘的入门算法,在大赛中,该算法一般用来作为插值来用,一般不会直接使用该算法来进行预测。众所周知,对于KNN算法可以这样理解,该算法是基于一种现有的数据分布来作为判别依据,当一条数据进来时,通过之前确定的参数k去统计,距离这个点最近的k个点的类别,选择次数最多的类别作为新数据的类别。...原创 2019-08-23 22:45:54 · 2308 阅读 · 0 评论