2018年06月_forward&forever

转载损失函数、风险函数、经验风险最小化、结构风险最小化

摘自李航《统计学习方法》损失函数损失函数（loss function）或代价函数（cost function）用以度量预测错误的程度。损失函数式f(X)f(X)和yy的非负实值函数，记作L(Y,f(X))L(Y,f(X))。统计学中常用的损失函数有以下几种：0-1损失函数（0-1 loss function）L(Y,f(X)={1,0,Y≠f(X)Y=f(X)L(Y,f(X)={1,Y≠f(X)...

2018-06-28 15:00:08 901

转载 Maven之（一）Maven是什么

首先，Maven的正确发音是[ˈmevən]，而不是“马瘟”以及其他什么瘟。Maven在美国是一个口语化的词语，代表专家、内行的意思，约等于北京话中的老炮儿。一个对Maven比较正式的定义是这么说的：Maven是一个项目管理工具，它包含了一个项目对象模型 (POM：Project Object Model)，一组标准集合，一个项目生命周期(Project Lifecycle)，一个依赖管理系统(D...

2018-06-27 17:49:31 201

转载 SSE,MSE,RMSE,R-square指标讲解

SSE(和方差、误差平方和)：The sum of squares due to errorMSE(均方差、方差)：Mean squared errorRMSE(均方根、标准差)：Root mean squared errorR-square(确定系数)：Coefficient of determinationAdjusted R-square：Degree-of-freedom adjusted...

2018-06-27 09:49:38 1132

转载逻辑回归（logistic regression）和线性回归（linear regression）

序号逻辑回归线性回归模型归类离散选择法模型回归分析数值类型二元一元或多元公式P(Y=1│X=x)=exp(x'β)/(1+exp(x'β)) 逻辑回归Logit模型（Logit model，也译作“评定模型”，“分类评定模型”，又作Logistic regression，“逻辑回归”）是离散选择法模型之一，Logit模型是最早的离散选择模型，也是目前应用最广的模型。是社会学、生物统计学、临床、数量...

2018-06-26 09:17:34 2106

转载机器学习总结（一）：常见的损失函数

这是博主的第一篇博客，mark一下，希望今后能够坚持下去。博主是机器学习菜鸟，将来希望从事机器学习的工作，最近在整理机器学习的知识点，将这些总结的文字以博客的形式展现出来，一是便于复习，二是分享出来希望能对别人会有一点点帮助。最近搜集了一些机器学习常见的面试问题，将问题和回答整理出来，做到有备无患。（随时进行补充）常见的损失函数梯度消失和梯度爆炸产生的原因SVM的原理RF，SVM和NN的优缺点模型...

2018-06-17 18:22:58 336

转载交叉熵代价函数(损失函数)及其求导推导

本文只讨论Logistic回归的交叉熵，对Softmax回归的交叉熵类似。首先，我们二话不说，先放出交叉熵的公式： J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))), 以及J(θ)对参数θ的偏导数（用于诸如梯度下降法等优化算法的参数更新），如下： ∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j 但是在大多论文或...

2018-06-17 16:21:11 648

转载决策树--信息增益，信息增益比，Geni指数的理解

决策树是表示基于特征对实例进行分类的树形结构从给定的训练数据集中，依据特征选择的准则，递归的选择最优划分特征，并根据此特征将训练数据进行分割，使得各子数据集有一个最好的分类的过程。决策树算法3要素：特征选择决策树生成决策树剪枝部分理解：关于决策树生成决策树的生成过程就是使用满足划分准则的特征不断的将数据集划分为纯度更高，不确定性更小的子集的过程。对于当前数据集D的每一次的划分...

2018-06-14 22:09:14 13167 5

转载决策树（ID3、C4.5、CART、随机森林）

原文地址：http://blog.csdn.net/gumpeng/article/details/51397737注：本篇文章也是多个博客的综合整理。1、决策树基本问题1.1 定义我们应该设计什么的算法，使得计算机对贷款申请人员的申请信息自动进行分类，以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收...

2018-06-14 11:16:24 537

转载为什么要用交叉验证

本文结构：什么是交叉验证法？为什么用交叉验证法？主要有哪些方法？优缺点？各方法应用举例？什么是交叉验证法？它的基本思想就是将原始数据（dataset）进行分组，一部分做为训练集来训练模型，另一部分做为测试集来评价模型。为什么用交叉验证法？交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合。还可以从有限的数据中获取尽可能多的有效信息。主要有哪些方法？1. ...

2018-06-14 10:13:15 609

转载 Boosted Tree

本文是对开源xgboost库理论层面的介绍，在陈天奇原文《梯度提升法和Boosted Tree》的基础上，做了如下注解：1）章节划分；2）注解和参考链接（以蓝色和红色字体标注）。备注：图片可点击查看清晰版。1. 前言应 @龙星镖局兄邀请写这篇文章。作为一个非常有效的机器学习方法，Boosted Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好，对于输入要求不敏感，往往是从统计学家到...

2018-06-14 01:04:28 248

原创集成学习—boosting和bagging异同

集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器，这样的集成是“同质”的；包含不同类型的个体学习器，这样的集成是“异质”的.集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能.根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类，即个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；...

2018-06-13 17:31:46 188

原创集成学习—boosting和bagging异同

集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器，这样的集成是“同质”的；包含不同类型的个体学习器，这样的集成是“异质”的.集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能.根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类，即个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；...

2018-06-13 17:13:09 430

转载 ROC与AUC的定义与使用详解

分类模型评估：指标描述Scikit-learn函数Precision精准度from sklearn.metrics import precision_scoreRecall召回率from sklearn.metrics import recall_scoreF1F1值from sklearn.metrics import f1_scoreConfusion Matrix混淆矩阵from sklea...

2018-06-13 16:21:20 210

转载 Regularized Regression: A Bayesian point of view

过拟合谈正则化之前，我们先来看一看过拟合问题。以一维的回归分析为例，如上图，如果用高阶多项式去拟合数据的话，可以使得训练误差EinEin很小，但是在测试集上的误差就可能很大。造成这种现象的原因就是因为我们使用的模型过于复杂，根据VC维理论：VC维很高的时候，就容易发生EinEin（Bias）很低，但EoutEout(Variance)1很高的情形.贝叶斯角度谈正则化解决 overfitting 最...

2018-06-13 08:15:20 334

转载机器学习中的损失函数（着重比较：hinge loss vs softmax loss）

1. 损失函数损失函数（Loss function）是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度，它是一个非负实值函数，通常用 L(Y,f(x)) 来表示。损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数的重要组成部分。模型的风险结构包括了风险项和正则项，通常如下所示： θ∗=argminθ1N∑i=1NL(yi,f(xi;θ))+λ Φ(θ...

2018-06-13 07:40:40 454

转载训练集、验证集和测试集的意义

在有监督的机器学习中，经常会说到训练集（train)、验证集（validation）和测试集（test），这三个集合的区分可能会让人糊涂，特别是，有些读者搞不清楚验证集和测试集有什么区别。1划分如果我们自己已经有了一个大的标注数据集，想要完成一个有监督模型的测试，那么通常使用均匀随机抽样的方式，将数据集划分为训练集、验证集、测试集，这三个集合不能有交集，常见的比例是8:1:1，当然比例是人为的。从...

2018-06-13 00:21:53 397

Tomcater321的博客

转载损失函数、风险函数、经验风险最小化、结构风险最小化

转载 Maven之（一）Maven是什么

转载 SSE,MSE,RMSE,R-square指标讲解

转载逻辑回归（logistic regression）和线性回归（linear regression）

转载机器学习总结（一）：常见的损失函数

转载交叉熵代价函数(损失函数)及其求导推导

转载决策树--信息增益，信息增益比，Geni指数的理解

转载决策树（ID3、C4.5、CART、随机森林）

转载为什么要用交叉验证

转载 Boosted Tree

原创集成学习—boosting和bagging异同

原创集成学习—boosting和bagging异同

转载 ROC与AUC的定义与使用详解

转载 Regularized Regression: A Bayesian point of view

转载机器学习中的损失函数（着重比较：hinge loss vs softmax loss）

转载训练集、验证集和测试集的意义

课堂课件(1-12全课).zip

word2vector

空空如也