统计
Zen of Data Analysis
Discover yourself, 不念过往,不畏将来,发掘数据之美
展开
-
SVC在非线性数据上的推广
为了能够找出非线性数据的线性决策边界,我们需要将数据从原始的空间投射到新空间中。是一个映射函数,它代表了某种非线性的变换,如同我们之前所做过的使用r来升维一样,这种非线性变换看起来是一种非常有效的方式。使用这种变换,线性SVM的原理可以被很容易推广到非线性情况下,其推导过程和逻辑都与线性SVM一模一样,只不过在定义决策边界之前,我们必须先对数据进行升维度,即将原始的转换成。如此,非线性S...原创 2019-10-27 20:02:07 · 216 阅读 · 0 评论 -
机器学习:线性SVM转换拉格朗日对偶函数和决策函数
拉格朗日函数转换为拉格朗日对偶函数Why need求极值,最简单的方法还是对参数求导后让一阶导数等于0。先来试试对拉格朗日函数求极值,在这里对参数向量和截距分别求偏导并且让他们等于0。这个求导过程比较简单:由于两个求偏导结果中都带有未知的拉格朗日乘数αi,因此还是无法求解出ω和b,必须想出一种方法来求解拉格朗日乘数αi。幸运地是,拉格朗日函数可以被转换成一种只带αi,不带ω和b的形式,这...原创 2019-10-26 07:09:41 · 1298 阅读 · 0 评论 -
机器学习:基于原型的聚类技术K-Means
基于原型的簇此时簇是对象的集合,并且其中每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近(或更加相似)。对于具有连续属性的数据,簇的原型通常是质心,即簇中所有点的平均值。当质心没有意义时(例如当数据具有分类属性时),原型通常是中心点,即簇中最有代表性的点。对于许多数据类型,原型可以视为最靠近中心的点;在这种情况下,通常把基于原型的簇看作基于中心的簇(center-based cluste...原创 2019-10-14 18:14:48 · 1400 阅读 · 0 评论 -
机器学习:二元逻辑回归的损失函数
损失函数的概念和解惑在学习决策树时,曾经提到过两种模型表现:在训练集上的表现,和在测试集上的表现。建模,是追求模型在测试集上的表现最优,因此模型的评估指标往往是用来衡量模型在测试集上的表现的。然而,逻辑回归有着基于训练数据求解参数的需求,并且希望训练出来的模型能够尽可能地拟合训练数据,即模型在训练集上的预测准确率越靠近100%越好。因此,**使用”损失函数“这个评估指标,来衡量参数为的模型拟合...原创 2019-10-12 22:00:52 · 1520 阅读 · 0 评论 -
机器学习:为什么需要逻辑回归
线性回归对数据的要求很严格,比如标签必须满足正态分布,特征之间的多重共线性需要消除等,而现实中很多真实情景的数据无法满足这些要求,因此线性回归在很多现实情境的应用效果有限。逻辑回归是由线性回归变化而来,因此它对数据也有一些要求;已经有了强大的分类模型决策树,它的分类效力很强,并且不需要对数据做任何预处理。何况,逻辑回归的原理其实并不简单。要理解逻辑回归,必须要有一定的数学基础,必须理解损失函数...原创 2019-10-12 21:16:51 · 2234 阅读 · 0 评论 -
机器学习:逻辑回归原理
之前的几篇博文,我们接触了不少带“回归”二字的算法,回归树、线性回归、岭回归,无一例外都是区别于分类算法,用来处理和预测连续型标签的算法。然而,逻辑回归,是一种名为“回归”的线性分类器,其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来,要先从线性回归开始。线性回归是机器学习中最简单的回归算法,对任意样本iii,它写作一个几乎人人熟悉的方程:zi=ω0+...原创 2019-10-11 21:53:26 · 225 阅读 · 0 评论 -
机器学习:线性模型-多重共线性问题的解决-Lasso
除了岭回归,最常被提到的模型还有Lasso。Lasso全称最小绝对收缩和选择算子(least absolute shrinkage and selection operator),由于这个名字过于复杂,所以简称为Lasso。和岭回归一样,Lasso是被创造来作用于多重共线性问题的算法,不过Lasso使用的是系数ω的L1范式(L1范式是系数ω的绝对值)乘以正则化系数α,所以Lasso的损失函数表达式...原创 2019-10-11 10:36:20 · 3303 阅读 · 0 评论 -
机器学习:线性模型-多重共线性问题的解决-岭回归
在线性模型之中,除了线性回归之外,最知名的就是岭回归与Lasso了。这两个算法非常神秘,他们的原理和应用都不像其他算法那样高调,学习资料料也很少。这可能是因为这两个算法不是为了提升模型表现,而是为了修复漏洞而设计的(实际上,使用岭回归或者Lasso,模型的效果往往会下降一些,因为删除了一小部分信息),因此在结果为上的机器学习领域颇有些被冷落的意味。本文介绍一下岭回归。岭回归,又称为吉洪诺夫正则化...原创 2019-10-10 17:19:54 · 1876 阅读 · 0 评论 -
线性回归:多重共线性的相关数学推导
多元线性回归使用最小二乘法求解,对多元线性回归的损失函数求导,并得出求解系数的式子和过程:最后一步中需要左乘XTX的逆矩阵,而逆矩阵存在的充分必要条件是特征矩阵不存在多重共线性。什么是多重共线性,如何一步步从逆矩阵必须存在推导到多重共线性不能存在?逆矩阵存在的充要条件逆矩阵存在与否的意义和影响。一个矩阵什么情况下才可以有逆矩阵呢?来看逆矩阵的计算公式:A−1=1∣A∣A^{-1}=\L...原创 2019-10-10 13:33:26 · 2285 阅读 · 0 评论 -
回归类的模型评估指标R2
先来看一组代码:import numpy as nprng = np.random.RandomState(42)X = rng.randn(100, 80)y = rng.randn(100)cross_val_score(LR(), X, y, cv=5, scoring='r2')运行结果array([-179.12952605, -5.692624 , -15.61...原创 2019-10-10 10:05:33 · 8085 阅读 · 4 评论 -
用最小二乘法求解多元线性回归的参数
最小二乘法如何求解多元线性回归残差平方和RSS最小化的参数向量?这种通过最小化真实值和预测值之间的RSS来求解参数的方法叫做最小二乘法。求解极值的第一步往往是求解一阶导数并让一阶导数等于0,最小二乘法也不能免俗。因此,首先在残差平方和RSS上对参数向量求导。这里的过程涉及少数矩阵求导的内容,需要查表来确定,感兴趣可以去维基百科去查看矩阵求导的详细公式的表格:https://en.wikip...原创 2019-10-09 11:17:00 · 7548 阅读 · 0 评论 -
机器学习算法之朴素贝叶斯模型
基本原理从统计学知识回到我们的数据分析。假如我们的分类模型样本是:即我们有m个样本,每个样本有n个特征,特征输出有k个类别,定义为C1,C2,…,Ck,。从样本我们可以学习得到朴素贝叶斯的先验分布P(Y=Ck)(k=1,2,…,K),接着学习到条件概率分布P(X=x|Y=Ck)=P(X1=x1,X2=x2,…,Xn=xn|Y=Ck),然后我们就可以用贝叶斯公式得到X和Y的联合分布P(X,Y)...原创 2019-10-07 22:56:17 · 257 阅读 · 0 评论 -
加权优化法在机器学习中的应用实例之1:用距离做惩罚因子
加权优化法在机器学习中应用广泛,本文介绍一种以距离作为惩罚因子的加权优化思路。以距离作为惩罚因子的优化KNN模型用最近邻点距离的远近来修正未知的分类,“一点一票” 的规则是KNN模型优化的一个重要步骤。对于原始分类模型而言,在选取最近的k个元素之后,将参考这些点的所属类别,并对其进行简单计数,计数过程中,这些点“一点一票”,每个点对分类目标点的分类影响效力相同。但这是不公平的:就算是最近邻...原创 2019-10-01 10:44:36 · 723 阅读 · 0 评论 -
机器学习算法模型评价之1:KNN
机器学习算法模型众多,不同的模型有不同的特点和适用场景,本文主要讨论KNN最近邻分类器算法。KNN的优缺点KNN代表着"投票类"的算法,一直广泛受到业界的欢迎。不过KNN也有自己的缺点,那就是它的计算非常缓慢,因为KNN必须对每一个测试点来计算到每一个训练数据点的距离,并且这些距离点涉及到所有的特征,当数据的维度很大,数据量也很大的时候,KNN的计算会成为诅咒,大概几万数据就足够让KNN跑几个小时了。KNN分类器的特点根据算法基本执行流程,我们可总结KNN最近邻分类器的特点如下:应用原创 2019-10-01 12:26:41 · 741 阅读 · 0 评论 -
机器学习及其算法分类
# 机器学习机器学习是一门研究如何让计算机学习,让计算机程序能够进化的学科。计算机传统的工作模式是:“命令– 执行”;计算机算法的工作模式是:“任务– 学习– 评估– 学习”。# 对机器学习的释义让我们先听听前人对机器学习的定义吧:机器学习研究如何让计算机不需要明确的程序也能具备学习能力。——Arthur Samuel,1959一个计算机程序在完成了任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E的增加而增加,可以称其为学习。——Tom Mitchell原创 2019-10-01 16:08:44 · 221 阅读 · 0 评论 -
机器学习算法之2:决策树
树模型简介树模型是有监督学习类算法中应用广泛的一类模型,同时可应用于分类问题和回归问题,其中,用于解决分类问题的树模型常被称为分类树,而用于解决回归类问题的树模型被称作回归树。树模型通过递归式切割的方法来寻找最佳分类标准,进而最终形成规则。其算法原理虽然简单,但模型本身适用面极广,且在分类问题和回归问题上均有良好的表现,外加使用简单,无须人为进行过多变量调整和数据预处理,同时生成规则清晰,模型...原创 2019-10-01 23:06:52 · 460 阅读 · 0 评论 -
决策树的生成之2:C4.5算法
C4.5算法C4.5算法与ID3算法相似,但是对ID3算法进行了改进,C4.5在生成的过程中,用信息增益比准则来选择特征。那么,C4.5算法是如何做到的呢?请看下文:修改局部最优化条件以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题,使用信息增益比(information gain ratio)可以对这一问题进行校正。信息增益比定义为其信息增益与训练数据集关于某一特征...原创 2019-10-04 18:14:16 · 512 阅读 · 0 评论 -
决策树的拟合度优化
欠拟合与过拟合当假设空间中含有不同复杂度的模型时,就要面临模型选择(model selection)的问题。我们希望获得的是在新样本上能表现得很好的学习器。为了达到这个目的,我们应该从训练样本中尽可能学到适用于所有潜在样本的"普遍规律",我们认为假设空间存在这种"真"模型,那么所选择的模型应该逼近真模型的。拟合度可简单理解为模型对于数据集背后客观规律的掌握程度,模型对于给定数据集如果拟合度较差...原创 2019-10-04 22:21:16 · 1233 阅读 · 0 评论 -
决策树之CART(分类回归树(Classification and Regression Tree))算法
CART-分类回归树CART:分类回归树(Classification and Regression Tree),属性如下:1)CART分裂过程是一个二叉递归划分过程;2)CART预测变量x的类型既可以是连续型变量量也可以是分类型变量;3)CART数据应以其原始形式处理,不需要离散化;4)CART用于数值型预测时,并没有使用回归,而是基于到达叶结点的案例的平均值做出预测。分裂准则1)...原创 2019-10-04 22:54:10 · 2416 阅读 · 0 评论 -
机器学习算法之朴素贝叶斯原理
缘起:真正的概率分类器在许多分类算法应用中,特征和标签之间的关系并非是决定性的。比如说,我们想预测一个人究竟是否会在泰坦尼克号海难中生存下来,那我们可以建一棵决策树来学习训练集。在训练中,其中一个人的特征为:30岁,男,普通舱,他最后在泰坦尼克号海难中去世了。当我们测试的时候,我们发现有另一个⼈人的特征也为:30岁,男,普通舱。基于在训练集中的学习,我们的决策树必然会给这个人打上标签:去世。然...原创 2019-10-07 12:38:26 · 266 阅读 · 0 评论 -
机器学习预测结果评价的score方法取值分类及决定系数R^2(Coefficient of Determination)的原理及推导
Python机器学习sklearn里的score()方法,主要用于度量给定测试集的预测效果的好坏。当y为连续变量时,score的取值为R^2^;当y为分类变量时,score的取值为准确率accuracy。其中:R^2^ =(1-u/v),u=((y_true - y_pred) ** 2).sum(),v=((y_true - y_true.mean()) ** 2).sum();accuracy=分类算法正确的分类数/总分类数。决定系数R^2(Coefficient of Determination)原创 2019-09-27 19:42:00 · 8804 阅读 · 2 评论