机器学习
风筝__
学无止境
展开
-
机器学习之查准率、查全率与P-R曲线,ROC曲线与AUC指标
在有监督学习中,往往会用一定的方法判断模型的好坏,比如有一系列的有实际标签的样本: 实际的标签:1 1 1 1 1 0 0 0 0 0 放入某个训练好的分类模型中预测: 预测的标签:1 1 1 1 0 1 1 0 0 0 一、TP、FP、TN、FN 在评判之前,先给出以下的概念,仅仅考虑到二分类的情况下,可将样本根据其实际标签与学习得到的预测标签,可以分为四种情形(TP FP TN...原创 2018-09-17 15:29:37 · 4394 阅读 · 1 评论 -
梯度上升和梯度下降
关于梯度上升法和梯度下降法的原理,大多数都是纯理论的解释和公式的推导,没有一种直观的表达方式。 在这我分别举出两个简单而又直观的例子,大家就明白了,为什么梯度下降法一定是减梯度,而梯度上升法一定是加梯度。 对于梯度下降法来说,在神经网络中用到,最小化误差的一种优化方法。 如用梯度下降法求此函数的极小值, 在x1,x2点分别可导, 在x1处导数为负数,在此函数中,(-∞,0)区间...原创 2018-07-28 16:00:45 · 15933 阅读 · 3 评论 -
用可视化思维解读和理解统计自由度
什么是自由度(degree of freedom) 自由度并不是一个很好解释的概念。多数人最早接触到degree of freedom 应该是在Excel里面run regression后,输出的表格中的一个指标(如下图)。 日常生活中的degree of freedom 首先,你先不要想统计的知识,我们讲一个平时生活里的例子,比如你是一个非常喜欢鞋子的人,你每个礼拜每一天都想穿上不一...转载 2018-10-04 11:43:11 · 547 阅读 · 0 评论 -
卡方检验
卡方检验,统计学的方法,现在机器学习看变量的时候也会用到。 很多不知道的人,一听到这个名词,会马上联想到, 啊?还要拿张卡来检验吗? 其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。 我常听到运营和分析师这样的对话, 分析师:“这个变量我做了卡方检验了,不显著,所以我没有放进模型。” 这时候,你要是仔细...转载 2018-10-04 14:23:37 · 1283 阅读 · 0 评论 -
方差、协方差和皮尔森相关系数
方差: 在给定皮尔森相关系数的定义以前,先给出一些统计学的基本概念,样本之间存在 均值:方差:标准差: 标准差是衡量样本集合的各个样本点到均值的距离之平均,是描述样本之间的离散程度,而方差是标准差的平方。 有人会问了,为什么方差的分母是n-1,而不是n? 在给出回答之前,先解释一下什么是无偏估计 无偏估计:估计量的均值等于真实值,即具体每一次估计值可能大于真实值,也可能小于真实值...原创 2018-10-04 17:04:42 · 8140 阅读 · 0 评论 -
k-means算法扩展
k-means是机器学习中最基本的聚类算法,但同样也有很多缺点: 一是k选择是随机的,可能会得到局部最优解 二是k的个数的选择是预估计的,很多时候并不知道样本被聚为几类最合适 同样,k-measns仅能实现对连续型数值的样本操作,当数据量过于庞大时,时间复杂度较高(每次计算簇的中心来选取新的中心点) k-means++ 为了解决k的随机性,k-means++算法与k-means算法...原创 2018-11-20 19:42:30 · 687 阅读 · 0 评论 -
python源码,朴素贝叶斯实现多分类
机器学习实战中,朴素贝叶斯那一章节只实现了二分类,网上大多数博客也只是照搬书上的源码,没有弄懂实现的根本。在此梳理了一遍朴素贝叶斯的原理,实现了5分类的例子,仅供参考! from numpy import * ''' 贝叶斯公式 p(ci|w) = p(w|ci)*p(ci) / p(w) 即比较两类别分子大小,把结果归为分子大的一类 p(w|ci)条件概率,即在类别1或0下,w(词频)出现的...原创 2019-10-09 10:09:56 · 2552 阅读 · 3 评论