统计学
**码上人生**
在数据、代码中寻找诗和远方......
展开
-
1.1、回归之最小二乘法
最小二乘法最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。用函数表示为: 使误差「所谓误差,当然是观察值与实际真实值的差量」平方和达到最小以寻求估计值的方法,就叫做最小二乘法,用最小二乘法得到的估计,叫做最小二乘估计。当然,取平方和作为目原创 2016-02-06 17:32:08 · 1385 阅读 · 0 评论 -
统计学总结之Bias(偏差),Error(误差),和Variance(方差)的区别
Bias(偏差),Error(误差),和Variance(方差)的区别1)、概念:bias :度量了某种学习算法的平均估计结果所能逼近学习目标的程度;(一个高的偏差意味着一个坏的匹配) variance :则度量了在面对同样规模的不同训练集时分散程度。(一个高的方差意味着一个弱的匹配,数据比较分散) 靶心为某个能完美预测的模型,离靶心越远,则准确率随之降低。靶上的点代表某次对某个数据集上学原创 2016-02-04 16:59:00 · 46276 阅读 · 0 评论 -
统计学:矩估计法
矩估计法百度百科:http://baike.baidu.com/link?url=xHBhj9bfqU1AJHc9yj7O-6BHKFaiYsljabnCM73ycPuu5oe4pQkurGoACuB-TO8ewG6PTpIJO5ctveySK-KZ7_所谓矩估计法,就是利用样本矩来估计总体中相应的参数.最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体原创 2016-02-16 10:39:17 · 3485 阅读 · 0 评论 -
大数定理与中心极限定理
大数定理与中心极限定理中心极限定理: 大量相互独立的随机变量,其均值(或者和)的分布以正态分布为极限(意思就是当满足某些条件的时候,比如Sample Size比较大,采样次数区域无穷大的时候,就越接近正态分布)。而这个定理amazing的地方在于,无论是什么分布的随机变量,都满足这个定理。 大数定理 简单的可以描述为,如果有一个随机变量X,你不断的观察并且采样这个随机变原创 2016-02-10 17:30:49 · 2616 阅读 · 0 评论 -
曼哈顿距离、欧氏距离
曼哈顿距离、欧氏距离出租车几何或曼哈顿距离(ManhattanDistance)是由十九世纪的赫尔曼·闵可夫斯基所创词汇,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和。图中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。曼哈顿距离——两点在南北方向上的距离加上在东西方向上的距离,即d(i,j)=|xi-xj|+|yi原创 2016-02-09 15:58:39 · 1919 阅读 · 0 评论 -
梯度下降法
1、介绍梯度下降法(gradientdescent)是求解无约束最优化问题的一种常用方法,有实现简单的优点。梯度下降法是迭代算法,每一步需要求解目标函数的梯度向量。梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速原创 2016-02-08 18:09:47 · 1947 阅读 · 0 评论 -
2.3决策树之基尼系数
在CART里面划分决策树的条件是采用Gini Index,定义如下:gini(T)=1−sumnj=1p2j其中,( p_j )是类j在T中的相对频率,当类在T中是倾斜的时,gini(T)会最小。将T划分为T1(实例数为N1)和T2(实例数为N2)两个子集后,划分数据的Gini定义如下:ginisplit(T)=fracN1Ngini(T1)+fracN2Ngini(T2)原创 2016-02-08 11:09:36 · 40354 阅读 · 1 评论 -
2.2决策树之信息增益率
信息增益率信息增益率计算公式:Gain-ratio=Gain(A)/IG(A)即Gain(S, A)=E(S)–E(S, A) 如下图所示:属性A有五个取值,每个取值对应一个实例,则I(1,1,1,1,1)=-1/5*log(1,5)*5即:信息增益率的计算在掌握了信息增益的计算的基础上,需要知道分母怎么算,分母的算法与E(S,A)的算法不同,再原创 2016-02-08 11:07:05 · 3976 阅读 · 0 评论 -
统计学与机器学习相关概念
统计法及其含义 RSS(残差平方和)与R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS最小(残差平方和越小拟合程度越好),R2最大的模型(相关系数平方越接近1越好) R2:复判定系数(multiple coefficient of determination:相关系数的平方),衡量多元线性回归方程对数据的拟合程度。越接近1,拟合效果越好,相反,越接近0,拟合效果越差相关系数ρXY:取原创 2016-02-08 11:00:03 · 1157 阅读 · 0 评论 -
Roc曲线评价标准
1、一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(Truepositive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(false原创 2016-09-29 15:41:11 · 3188 阅读 · 0 评论