ml foundation
文章平均质量分 69
bitcarmanlee
这个作者很懒,什么都没留下…
展开
-
sklearn中的naive bayes算法
1.总览sklearn中的naive bayes一共有五种,如果进入到源码中,会发现该模块文件中最开始的位置有如下源码:__all__ = ['BernoulliNB', 'GaussianNB', 'MultinomialNB', 'ComplementNB', 'CategoricalNB']以上这五个就是总共的五种算法。2.GaussianNB看到GaussianNB这个名字,那肯定就是跟高斯分布有关系。如果原始数据是连续值且符合高斯分布,那么使用GaussianNB原创 2021-11-21 14:22:25 · 3387 阅读 · 0 评论 -
IV值小结
0 引言在金融场景中,IV值是一个经常用来衡量特征强弱的指标。IV值如果比较大,说明该特征的区分度比较强,如果IV值比较小则说明特征的区分度比较弱。正因为有该性质,所以IV值经常用来进行特征选择。1.WOE在介绍IV值之前,需要先介绍一下WOEWOE, Weight Of Evidence,直译过来就是证据权重。WOE是对原始变量的一种编码方式。计算的具体步骤主要包括两步1.对变量分组,一般的方式为分箱或者离散化处理。比如常见的分箱方法有等频分箱,等高分箱等。2.分箱以后,对于第i组,计算该组的原创 2021-08-09 19:42:36 · 4843 阅读 · 0 评论 -
梯度方向与等高线方向垂直的理解
1.前言在讲解梯度下降算法时,经常可以看到下面这张图(图片来自Wiki百科):这张图后面一般都会再接一句,梯度下降的方向与等高线的切线方向垂直。最开始的时候对这句话并没有多想,觉得这理所应当。不过突然有一天回过神来,为什么梯度下降方向与等高线的方向垂直啊?然后开始仔细考虑了一下这个问题。2.等高线看到知乎上的一幅图,能比较清楚地看出等高线的绘制过程,在此粘贴过来。3.梯度的定义梯...原创 2018-12-27 11:28:41 · 17905 阅读 · 10 评论 -
用梯度下降求解最小二乘线性回归python实现
1.前言最小二乘法线性回归作为最基础的线性回归,在统计和机器学习中都有重要的地位。在机器学习中,线性回归用来从数据中获得启示来帮助预测,因此如何得到最拟合数据的函数和防止过拟合是研究重点。假设我们的拟合函数是y=ax+by = ax + by=ax+b,标准的线性最小二乘采用MSE做为loss function。那么在用梯度下降求解的时候,参数a,b对应的梯度分别为:∂∂aL(a,b)=∂∂...原创 2018-10-14 23:43:45 · 3872 阅读 · 0 评论 -
初学者都能看懂的蒙特卡洛方法以及python实现
1.什么是蒙特卡洛方法(Monte Carlo method)蒙特卡罗方法也称统计模拟方法,是1940年代中期由于科学技术的发展和电子计算机的发明,而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。 20世纪40年代,在冯·诺伊曼,斯塔尼斯拉夫·乌拉姆和尼古拉斯·梅特罗波利斯在洛斯阿拉莫斯国家实验室为核武器计划工作时,发明了蒙特卡罗...原创 2018-09-15 18:42:47 · 291970 阅读 · 44 评论 -
最小二乘法 来龙去脉
最小二乘是每个上过大学的同学都接触过的概念与知识点(当然可能纯文科的同学没接触过,但是一般纯文科的同学也不会看这篇文章好像)。最小二乘理论其实很简单,用途也很广泛。但是每次说到最小二乘,总感觉差了点什么似的,好像对于最小二乘的前世今生没有一个特别详细与系统的了解。so,本博主趁着周末的时间,赶紧给详细整理整理,力争把最小二乘是个什么鬼做一个特别详细的说明,争取让学英语学中文学历史学画画唱歌的同学都原创 2016-06-05 13:35:41 · 77507 阅读 · 51 评论 -
Ensemble Learning方法总结
1.从Boosting到Stacking,概览集成学习的方法与性能 原文地址:https://www.jiqizhixin.com/articles/2017-08-28-32.腾讯广告点击大赛:对stacking的一些基本介绍 原文地址:https://www.qcloud.com/community/article/8950553.Tencent_Social_Ads 原文地址:https原创 2017-11-08 22:41:32 · 1201 阅读 · 0 评论 -
python中利用最小二乘拟合二次抛物线函数
1.最小二乘也可以拟合二次函数我们都知道用最小二乘拟合线性函数没有问题,那么能不能拟合二次函数甚至更高次的函数呢?答案当然是可以的。下面我们就来试试用最小二乘来拟合抛物线形状的的图像。对于二次函数来说,一般形状为 f(x) = a*x*x+b*x+c,其中a,b,c为三个我们需要求解的参数。为了确定a、b、c,我们需要根据给定的样本,然后通过调整这些参数,知道最后找出一组参数a、b、c,使这些所有的原创 2017-10-30 23:07:10 · 21181 阅读 · 2 评论 -
协方差与皮尔逊系数详解
标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这 样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。 协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义: 来度量各个维度偏离其均值的原创 2016-03-30 21:31:03 · 6050 阅读 · 1 评论 -
信息熵 条件熵 信息增益 信息增益比 GINI系数
在信息论与概率统计学中,熵(entropy)是一个很重要的概念。在机器学习与特征工程中,熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下,权当笔记。1.信息熵熵是神马东东?信息论的开山祖师爷Shannon(中文翻译过来一般叫香农,总觉得很多文字经过翻译就不对劲,就跟人家老外翻译贱人就是矫情一样,感觉怪怪的。所以咱们还是用英文了,偷偷装个小逼)明确告诉我们,信息的不确定性可以用熵来表示: 对原创 2016-05-24 10:30:55 · 26726 阅读 · 12 评论 -
次导数 次梯度 小结
1.导数(Derivative)的定义在说次梯度之前,需要先简单介绍一下导数的概念与定义。导数(英语:Derivative)是微积分学中重要的基础概念。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数进行局部的线性逼近。 对于一般的函数f(x)f(x),其导数为: f′(x)=limΔx→0ΔyΔx=limΔx→0f(x0+Δx)−f(x0)Δx f'(原创 2016-07-13 11:17:25 · 15060 阅读 · 3 评论 -
数据归一化小结
在各种模型训练,特征选择相关的算法中,大量涉及到数据归一化的问题。比如最常见的情况是计算距离,如果不同维度之间的取值范围不一样,比如feature1的取值范围是[100,200],feature2的取值范围是[1,2],如果数据不做归一化处理,会造成feature1在距离计算中占压倒性的优势,feature2完全体现不出来作用。而数据做归一化处理以后,会让各个不同特征对距离计算的贡献大致相同,从而避原创 2016-05-09 14:46:53 · 24428 阅读 · 0 评论 -
搞机器学习需要哪些技能
1. 前言本来这篇标题我想的是算法工程师的技能,但是我觉得要是加上机器学习在标题上,估计点的人会多一点,所以标题成这样了,呵呵,而且被搜索引擎收录的时候多了一个时下的热门词,估计曝光也会更多点。不过放心,文章没有偏题,我们来说正经的。今天就说说机器学习这个最近两年计算机领域最火的话题,这不是一篇机器学习的技术文章,只是告诉大家机器学习里面的坑实在是太多,而且很多还没入门或者刚刚入门的朋友们,其实在你转载 2016-05-27 22:53:06 · 14182 阅读 · 3 评论 -
逻辑回归与线性回归
相同点: 两者都是广义线性模型GLM(Generalized linear models)不同点: 1.线性回归要求因变量(假设为Y)是连续数值变量,而logistic回归要求因变量是离散的类型变量,例如最常见的二分类问题,1代表正样本,0代表负样本 2.线性回归要求自变量服从正态分布,logistic回归对变量的分布则没有要求 3.线性回归要求自变量与因变量有线性关系,Logistic回归原创 2016-04-27 18:01:29 · 2907 阅读 · 1 评论 -
准确率 召回率 调和平均数等
TrueClassPNHypothesizedYTrue PositiveFalse PositiveClassNFalse NagativeTrure NagativeP = T原创 2016-03-16 19:50:15 · 2538 阅读 · 0 评论