![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
Candy_GL
这个作者很懒,什么都没留下…
展开
-
机器学习中的偏差和方差
数学解释偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。机器学习中的偏差和方差 首先,假设你知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型,然后拿到测试集去用,效转载 2018-02-01 18:13:43 · 294 阅读 · 0 评论 -
Sklearn-LogisticRegression逻辑回归(有处理样本不均衡时设置参数的方法)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/CherDW/article/details/54891073逻辑回归:可以做概率预测,也可用于分类,仅能用于线性问题。通过计算真实值与预测值的概率,然后变换成损失函数,求损失函数最小值来计算模型参数,从而得出模型。 sklearn.linear_model.LogisticRegres...转载 2018-09-26 20:09:28 · 14148 阅读 · 0 评论 -
关于sklearn下class_weight参数的一点源码阅读与测试
版权声明:欢迎转载,请注明原出处 https://blog.csdn.net/go_og/article/details/81281387一直没有很在意过sklearn的class_weight的这个参数的具体作用细节,只大致了解是是用于处理样本不均衡。后来在简书上阅读svm松弛变量的一些推导的时候,看到样本不均衡的带来的问题时候,想更深层次的看一下class_weight的具体作用方式,...转载 2018-09-27 14:52:07 · 2431 阅读 · 0 评论 -
多标签分类的结果评估---macro-average和micro-average介绍
一,多分类的混淆矩阵多分类混淆矩阵是二分类混淆矩阵的扩展祭出代码,画线的那两行就是关键啦:二,查看多分类的评估报告祭出代码,使用了classicfication_report()三,宏平均与微平均公式是神看的,我是学弱...直接看例子,没有复杂的公式:宏平均微平均宏平均和微平均的对比如果每个class的样本数量差不多,那么宏平均和微平均没有太大差...转载 2018-10-15 15:12:48 · 10844 阅读 · 7 评论 -
卷积神经网络系列之softmax,softmax loss和cross entropy的讲解
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014380165/article/details/77284921我们知道卷积神经网络(CNN)在图像领域的应用已经非常广泛了,一般一个CNN网络主要包含卷积层,池化层(pooling),全连接层,损失层等。虽然现在已经开源了很多深度学习框架(比如MxNet,Caffe等),训练一个模型变...转载 2018-11-01 19:01:22 · 207 阅读 · 0 评论 -
简单谈谈Cross Entropy Loss
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xg123321123/article/details/80781611写在前面分类问题和回归问题是监督学习的两大种类:分类问题的目标变量是离散的;回归问题的目标变量是连续的数值。 神经网络模型的效果及优化的目标是通过损失函数来定义的。回归问题解决的是对具体数值的预测。比如房价预测、...转载 2018-11-01 19:07:16 · 1083 阅读 · 0 评论 -
《美团机器学习实践》—— 读后总结
第一章 问题建模第二章 特征工程第三章 常用模型第四章 模型融合第五章 用户画像第六章 POI实体链接第七章 评论挖掘第八章 O2O场景下的查询理解和用户引导第九章 O2O场景下排序的特点第十章 推荐在O2O场景中的应用第十一章 O2O场景下的广告营销第十二章 用户偏好和损失建模第十三章 深度学习概述...转载 2018-11-06 19:56:46 · 2383 阅读 · 0 评论 -
线性回归推导
转自:https://blog.csdn.net/qq_38734403/article/details/80526974https://blog.csdn.net/july_sun/article/details/53223962http://blog.51cto.com/12133258/2051527 回归是解决连续数据的预测问题,而分类是解决离散数据的预测问题。线性回归是一...转载 2019-02-22 09:11:37 · 361 阅读 · 0 评论 -
【机器学习】Logistic Regression 的前世今生(理论篇)
版权声明:如需转载,请附上本文链接。作者主页:http://blog.csdn.net/cyh_24 https://blog.csdn.net/cyh24/article/details/50359055Logistic Regression 的前世今生(理论篇)本博客仅为作者记录笔记之用,不免有很多细节不对之处。还望各位看官能够见谅,欢迎批评指正。博客虽水,然亦博主之苦劳也。...转载 2019-02-22 09:17:26 · 457 阅读 · 0 评论 -
逻辑回归(Logistic Regression)原理及推导
参考:https://blog.csdn.net/programmer_wei/article/details/52072939转载 2019-02-22 09:20:48 · 529 阅读 · 0 评论 -
机器学习-----线性回归浅谈(Linear Regression)
转自:https://www.cnblogs.com/GuoJiaSheng/p/3928160.htmlLinear Regreesion 在现实生活中普遍存在着变量之间的关系,有确定的和非确定的。确定关系指的是变量之间可以使用函数关系式表示,还有一种是属于非确定的(相关),比如人的身高和体重,一样的身高体重是不一样的。 线性回归: ...转载 2019-02-22 09:48:13 · 286 阅读 · 0 评论 -
Sigmoid函数总结
Sigmoid函数又叫Logistic函数,它在机器学习领域有极其重要的地位。以前一直不是很理解Sigmoid函数的重要性,查了很多资料,大体上屡了一下,不过数学功底太差,很多地方理解的不够透彻。这里简单记录一下。一 函数基本性质二 Sigmoid函数与逻辑回归三 为什么要选择Sigmoid函数LR的需求选择Sigmoid是可以的Sigmoid特殊的性质为什么选择Sigmoid正态分...转载 2019-02-22 20:35:49 · 5288 阅读 · 0 评论 -
逻辑回归为什么使用sigmod
转载 2019-02-22 20:41:07 · 795 阅读 · 0 评论 -
【机器学习】【逻辑回归】代价函数为什么用最大似然估计而不是最小二乘法?
版权声明:本文为博主原创文章,未经博主允许不得转载,转载请注明文章来源,联系方式:vipsummer@139.com https://blog.csdn.net/u012421852/article/details/79620810为了搞清楚为什么,就要先搞清楚,逻辑回归的对数似然函数和最小二乘法函数分别是什么。逻辑回归的对数似然函数公式逻辑回归的最小二乘法的代价函数公式可以证明逻辑...转载 2019-02-22 20:53:52 · 1160 阅读 · 0 评论 -
Svm算法原理及实现
转自:https://blog.csdn.net/d__760/article/details/80387432Svm(support Vector Mac)又称为支持向量机,是一种二分类的模型。当然如果进行修改之后也是可以用于多类别问题的分类。支持向量机可以分为线性核非线性两大类。其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本本集中所有数据到这个超平面的距离最短。...转载 2019-02-25 17:42:03 · 1077 阅读 · 0 评论 -
机器学习中的范数规则化-L0,L1和L2范式
转自:https://blog.csdn.net/zouxy09/article/details/24971995/ 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错...转载 2019-02-20 15:32:16 · 395 阅读 · 0 评论 -
L0、L1、L2范数在机器学习中的应用
正则化在机器学习中经常出现,但是我们常常知其然不知其所以然,今天Cathy将从正则化对模型的限制、正则化与贝叶斯先验的关系和结构风险最小化三个角度出发,谈谈L1、L2范数被使用作正则化项的原因。Cathy是初学者,理解有限,若有理解错误的地方还望大家批评指正。 首先我们先从数学的角度出发,看看L0、L1、L2范数的定义,然后再分别从三个方面展开介绍。L0范数指向量中非零元素的个数L...转载 2019-02-21 09:22:10 · 958 阅读 · 0 评论 -
网易云音乐基于用户的推荐系统
转自:https://blog.csdn.net/zhong_ethan/article/details/81393197网易云音乐核心功能是其推荐算法,据观察,日推主要采用itemCF方法。网易云音乐根据每日获取到的听歌列表,优先推荐跟该歌曲相似的歌曲。如今,网易云音乐着重社交功能,因此,本文尝试构建基于用户的推荐系统。摘要:本文思路是根据用户所有时间听歌排行计算相似度,推荐用户最近一周...转载 2019-03-04 12:18:51 · 2702 阅读 · 0 评论 -
不平衡数据的分类评价指标总结
转自:https://blog.csdn.net/sqiu_11/article/details/78396443识别任务中混淆矩阵(Confusion Matrix)用于评价算法好坏的指标。下图是一个二分类问题的混淆矩阵:TP:正确肯定——实际是正例,识别为正例FN:错误否定(漏报)——实际是正例,却识别成了负例FP:错误肯定(误报)——实际是负例,却识别成了正例TN:正...转载 2018-09-26 19:46:53 · 6823 阅读 · 0 评论 -
[干货]如何从不均衡类中进行机器学习
参考自:https://www.svds.com/learning-imbalanced-classes/引言如果您刚从机器学习课程中学习,那么您所使用的大多数数据集都相当容易。除其他事项外,在构建分类器时,样本类是平衡的,这意味着每个类的实例数量大致相同。教师通常使用清理过的数据集,以专注于讲授特定的算法或技术而不受其他问题的干扰。通常你会在两个维度中显示如下的例子,用不同颜色(或形状)...转载 2018-09-26 18:26:20 · 350 阅读 · 0 评论 -
理解PAC学习理论
PAC学习相关理论的一个重要总结:同等条件下,模型越复杂泛化误差越大。同一模型在样本满足一定条件的情况下,其数量越大,模型泛化误差越小,因此还可以说模型越复杂越吃样本。本文旨在让大家快速了解这句话的含义。您只需要提前了解假设空间、泛化误差、经验误差的概念(不明白的百度20分钟)及任何一本概率论教材前两章内容就能看懂这篇文章。为什么要学习PAC学习理论? 此理论可以帮助我们更转载 2018-02-05 11:48:27 · 3008 阅读 · 0 评论 -
PCA、CCA、PLS
转自:https://blog.csdn.net/giskun/article/details/18041611看一篇文章,其中提到了偏最小二乘回归PLS,PLS方法在普通多元回归的基础(最小二乘法),结合了主成分分析PCA和典型相关分析CCA的思想,解决回归分析中自变量多重共线性的问题。首先需要补充一下PCA和CCA的基础知识,其中最小二乘法比较常见,参见百度百科:最小二乘法1. 主成分分析PC...转载 2018-04-04 11:35:11 · 7956 阅读 · 0 评论 -
均方根误差(RMSE),平均绝对误差(MAE),标准差(Standard Deviation)的对比
转自:https://blog.csdn.net/capecape/article/details/78623897RMSERoot Mean Square Error,均方根误差是观测值与真值偏差的平方和与观测次数m比值的平方根。是用来衡量观测值同真值之间的偏差MAEMean Absolute Error ,平均绝对误差是绝对误差的平均值能更好地反映预测值误差的实际情况.标准差Standard ...转载 2018-06-06 15:31:52 · 9780 阅读 · 0 评论 -
年薪20万、50万、100万的算法工程师,到底有什么区别?
公元七世纪,在车迟国国家气象局组织的一次求雨活动中,虎力、鹿力、羊力三位大仙成功地祈下甘霖,于水火中救了黎民。老国王虽然不明就里,却从此尊他们为国师,奉道教为圭臬。 本世纪,算法工程师们的境遇也差不多:早些年,信奉糙快猛主义的大佬们觉得他们饱食终日、无所用心,没工作只好在学校混博士,靠数据上的障眼法装神弄鬼。可是,随着去年AlphaGo大破李世石,大佬们在心底喊出“我操”的同时,慌不择路地...转载 2018-08-14 13:17:43 · 6286 阅读 · 0 评论 -
机器学习中的 precision、recall、accuracy、F1 Score
转自:https://www.cnblogs.com/weedboy/p/7072010.html1. 四个概念定义:TP、FP、TN、FN先看四个概念定义: - TP,True Positive - FP,False Positive - TN,True Negative - FN,False Negative如何理解记忆这四个概念定义呢?举个简单的二元分类问题 例子:...转载 2018-09-17 13:12:11 · 529 阅读 · 0 评论 -
机器学习性能评估指标(精确率、召回率、ROC、AUC)
转自:http://charlesx.top/2016/03/Model-Performance/实际上非常简单,精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。 P = TP/(TP+FP)而召回率是针对我们原来的样本而言...转载 2018-09-17 13:18:56 · 337 阅读 · 0 评论 -
回归中的相关系数和决定系数概念及Python实现
衡量一个回归模型常用的两个参数:皮尔逊相关系数和R平方一、皮尔逊相关系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。...转载 2018-09-17 15:51:06 · 4017 阅读 · 0 评论 -
SGDClassifier和LR,SVM的区别
看了许多文献,以及最近的项目经验,终于真正地搞懂了LR。以前总听大家说,看你对机器学习搞得透彻不透彻,就看你逻辑回归理解得怎么样;自己是统计出身的我,一直很有自信,以为无非就是个极大似然估计,求那个似然函数的极大值而已。然而实际上,这个之中也有很多的说法在里面,比如,求参数的方法。在逻辑回归中,我们极大似然估计的参数是可以通过“极大化该参数值”得到的,然而得到参数之后,并不代表我们就完成了...转载 2018-09-25 22:05:30 · 1643 阅读 · 0 评论 -
机器学习算法一览,应用建议与解决思路 (实用!!!划重点!!!)
作者:寒小阳时间:2016年1月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/50469334声明:版权所有,转载请联系作者并注明出处1.引言提起笔来写这篇博客,突然有点愧疚和尴尬。愧疚的是,工作杂事多,加之懒癌严重,导致这个系列一直没有更新,向关注该系列的同学们道个歉。尴尬的是,按理说,机器学习介绍与算法一览应该放在最...转载 2018-09-26 12:53:51 · 527 阅读 · 0 评论 -
机器学习中的类别不均衡问题
基础概念类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值,因为这样的学习算法不能预测出正样本。这里我们可以知道不均衡问题会导致样本较少那一类的高错分率,即...转载 2018-09-26 18:20:16 · 1034 阅读 · 0 评论 -
网易云音乐推荐系统简单实现系列
网易云音乐推荐系统简单实现系列(1):https://blog.csdn.net/Tong_T/article/details/80354512网易云音乐推荐系统简单实现系列(2):https://blog.csdn.net/Tong_T/article/details/80366407...转载 2019-03-04 12:42:36 · 2338 阅读 · 0 评论