机器学习优化模型
forward&forever
fight & fire
展开
-
pandas中cumsum的用法
看了网上流传的讲解,太多雷同和错误,自己尝试了一下,做个记录:1.首先定义一个df,包含两列2.根据class列进行分组后,统计score列的累积值df['result']=df.groupby['class']['score'].cumsum()3.结果4.总结网上的df['score'].groupby['class']cumsum()写法会报错,应该是新版本的问题吧...原创 2021-08-25 11:41:33 · 1101 阅读 · 0 评论 -
SSE,MSE,RMSE,R-square指标讲解
SSE(和方差、误差平方和):The sum of squares due to errorMSE(均方差、方差):Mean squared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficient of determinationAdjusted R-square:Degree-of-freedom adjusted...转载 2018-06-27 09:49:38 · 1245 阅读 · 0 评论 -
损失函数、风险函数、经验风险最小化、结构风险最小化
摘自李航《统计学习方法》损失函数损失函数(loss function)或代价函数(cost function)用以度量预测错误的程度。损失函数式f(X)f(X)和yy的非负实值函数,记作L(Y,f(X))L(Y,f(X))。 统计学中常用的损失函数有以下几种:0-1损失函数(0-1 loss function)L(Y,f(X)={1,0,Y≠f(X)Y=f(X)L(Y,f(X)={1,Y≠f(X)...转载 2018-06-28 15:00:08 · 945 阅读 · 0 评论 -
XGBoost-Python完全调参指南-参数解释篇
在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost in Python>,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parame...转载 2018-07-08 00:44:46 · 220 阅读 · 0 评论 -
连续特征如何离散化,为什么要离散化,常用于逻辑回归模型
连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里?A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0、 离散特征的增加和减少都很容易,易于模型的快速迭代。(离散...转载 2018-08-10 14:34:23 · 2891 阅读 · 0 评论 -
LR的故事
写作计划:线性模型LR(没有考虑特征间的关联)——>LR +多项式模型(特征组合,不适用于特征稀疏场景,泛化能力弱)——>FM(适用于稀疏特征场景*,泛化能力强)——>FFM【省去零值特征,提高FFM模型训练和预测的速度,这也是稀疏样本采用FFM的显著优势】0.前言逻辑回归(LR,Logistic Regression)是传统机器学习中的一种分类模型,由于LR算法...转载 2019-06-12 15:58:12 · 343 阅读 · 0 评论 -
简单的交叉熵损失函数,你真的懂了吗?
说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:L=−[ylogŷ+(1−y)log(1−ŷ)]我们已经对这个交叉熵函数非常熟悉,大多数情况下都是直接拿来使用就好。但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?也许很多朋友还不是很清楚!没关系,接下来我将尽可能以最通俗的语言回答...转载 2019-06-12 18:26:15 · 703 阅读 · 1 评论 -
逻辑回归(logistic regression)和线性回归(linear regression)
序号逻辑回归线性回归模型归类离散选择法模型回归分析数值类型二元一元或多元公式P(Y=1│X=x)=exp(x'β)/(1+exp(x'β)) 逻辑回归Logit模型(Logit model,也译作“评定模型”,“分类评定模型”,又作Logistic regression,“逻辑回归”)是离散选择法模型之一,Logit模型是最早的离散选择模型,也是目前应用最广的模型。是社会学、生物统计学、临床、数量...转载 2018-06-26 09:17:34 · 2173 阅读 · 0 评论 -
机器学习总结(一):常见的损失函数
这是博主的第一篇博客,mark一下,希望今后能够坚持下去。博主是机器学习菜鸟,将来希望从事机器学习的工作,最近在整理机器学习的知识点,将这些总结的文字以博客的形式展现出来,一是便于复习,二是分享出来希望能对别人会有一点点帮助。最近搜集了一些机器学习常见的面试问题,将问题和回答整理出来,做到有备无患。(随时进行补充)常见的损失函数梯度消失和梯度爆炸产生的原因SVM的原理RF,SVM和NN的优缺点模型...转载 2018-06-17 18:22:58 · 354 阅读 · 0 评论 -
交叉熵代价函数(损失函数)及其求导推导
本文只讨论Logistic回归的交叉熵,对Softmax回归的交叉熵类似。 首先,我们二话不说,先放出交叉熵的公式: J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))), 以及J(θ)对参数θ的偏导数(用于诸如梯度下降法等优化算法的参数更新),如下: ∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j 但是在大多论文或...转载 2018-06-17 16:21:11 · 696 阅读 · 0 评论 -
Regularized Regression: A Bayesian point of view
过拟合谈正则化之前,我们先来看一看过拟合问题。以一维的回归分析为例,如上图,如果用高阶多项式去拟合数据的话,可以使得训练误差EinEin很小,但是在测试集上的误差就可能很大。造成这种现象的原因就是因为我们使用的模型过于复杂,根据VC维理论:VC维很高的时候,就容易发生EinEin(Bias)很低,但EoutEout(Variance)1很高的情形.贝叶斯角度谈正则化解决 overfitting 最...转载 2018-06-13 08:15:20 · 360 阅读 · 0 评论 -
ROC与AUC的定义与使用详解
分类模型评估:指标描述Scikit-learn函数Precision精准度from sklearn.metrics import precision_scoreRecall召回率from sklearn.metrics import recall_scoreF1F1值from sklearn.metrics import f1_scoreConfusion Matrix混淆矩阵from sklea...转载 2018-06-13 16:21:20 · 230 阅读 · 0 评论 -
集成学习—boosting和bagging异同
集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器,这样的集成是“同质”的;包含不同类型的个体学习器,这样的集成是“异质”的.集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能.根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;...原创 2018-06-13 17:13:09 · 557 阅读 · 0 评论 -
集成学习—boosting和bagging异同
集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器,这样的集成是“同质”的;包含不同类型的个体学习器,这样的集成是“异质”的.集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能.根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;...原创 2018-06-13 17:31:46 · 207 阅读 · 0 评论 -
Boosted Tree
本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体标注)。备注:图片可点击查看清晰版。1. 前言应 @龙星镖局 兄邀请写这篇文章。作为一个非常有效的机器学习方法,Boosted Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好,对于输入要求不敏感,往往是从统计学家到...转载 2018-06-14 01:04:28 · 276 阅读 · 0 评论 -
为什么要用交叉验证
本文结构:什么是交叉验证法?为什么用交叉验证法?主要有哪些方法?优缺点?各方法应用举例?什么是交叉验证法?它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。为什么用交叉验证法?交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。还可以从有限的数据中获取尽可能多的有效信息。主要有哪些方法?1. ...转载 2018-06-14 10:13:15 · 635 阅读 · 0 评论 -
决策树(ID3、C4.5、CART、随机森林)
原文地址:http://blog.csdn.net/gumpeng/article/details/51397737注:本篇文章也是多个博客的综合整理。1、决策树基本问题1.1 定义我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收...转载 2018-06-14 11:16:24 · 651 阅读 · 0 评论 -
决策树--信息增益,信息增益比,Geni指数的理解
决策树 是表示基于特征对实例进行分类的树形结构 从给定的训练数据集中,依据特征选择的准则,递归的选择最优划分特征,并根据此特征将训练数据进行分割,使得各子数据集有一个最好的分类的过程。 决策树算法3要素:特征选择决策树生成决策树剪枝 部分理解: 关于决策树生成决策树的生成过程就是 使用满足划分准则的特征不断的将数据集划分为纯度更高,不确定性更小的子集的过程。对于当前数据集D的每一次的划分...转载 2018-06-14 22:09:14 · 13306 阅读 · 5 评论 -
机器学习中的损失函数 (着重比较:hinge loss vs softmax loss)
1. 损失函数损失函数(Loss function)是用来估量你模型的预测值 f(x) 与真实值 Y 的不一致程度,它是一个非负实值函数,通常用 L(Y,f(x)) 来表示。损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数的重要组成部分。模型的风险结构包括了风险项和正则项,通常如下所示: θ∗=argminθ1N∑i=1NL(yi,f(xi;θ))+λ Φ(θ...转载 2018-06-13 07:40:40 · 505 阅读 · 0 评论