![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习里的数学应用
eefeeW
这个作者很懒,什么都没留下…
展开
-
参数估计
一。特点:1、需要估计的整体概率密度可以使用一个‘表达式’(里面含有未知参数)表示,则参数估计的目的就是估计表达式的这些未知参数2、二。分类:点估计:(1)矩估计(2)极大似然估计(3)贝叶斯估计区间估计:相当于得到两次点估计,一个为下界,一个为上界,由此构成一个区间三。点估计:1、矩估计:原创 2014-11-17 10:13:19 · 2341 阅读 · 0 评论 -
非参数估计
一。特点:1、不需要用表达式来表示总体的概率密度,然后估计这表达式里的未知数,而是直接用样本来估计这个总体概率密度二。分类:(1)parzen窗(核密度估计 kernel density estimate KDE),注意,虽然叫‘核密度’,但是使用的是‘窗函数’而不是核函数,一般认为核函数的作用参见‘核函数、mercer条件’(2)k近邻(3)神经网络原创 2014-11-17 10:37:24 · 1094 阅读 · 0 评论 -
牛顿法和拟牛顿法
一。两种方法本质:和梯度下降法的本质一样都是为了找到一个合适的最快的下降方向,然后以一定步长一步一步走到极值点二。牛顿法:1、传统牛顿法(数学中)2、传统牛顿法在机器学习的推广:机器学习中需要做的是,参考‘回归分析’求J在参数向量为自变量的最小值注意,上面需要重复若干次直到两次的参数相差不大3、传统牛顿原创 2014-11-17 14:17:50 · 1582 阅读 · 0 评论 -
logistic函数,sigma函数性质
性质:(1)g(-z)=1-g(z)(2)g' = g(1-g)=g(z)*g(-z)(3)几率:因为:ln(g / 1-g) = z; 可见符合sigma的概率分布的几率是‘线性’(4)一个事件发生的概率可以用其‘机率的logistic函数表示’******************************************原创 2014-11-17 15:01:50 · 23710 阅读 · 0 评论 -
用最直白的方式来解释‘批梯度下降’和‘随机梯度下降’
我们需要求最优值的函数是:其中一。理解批梯度:1、求J梯度(梯度是向量,每个坐标是J对其取偏导,所以可以认为梯度向量是J对向量求偏导):梯度向量G————过程推导比较简单,省略右侧表达式是一个向量(x本身是特征向量,括号中是一个数,加和m还是一个向量)可见每一组都可以求一个梯度*********************************原创 2014-11-17 14:00:34 · 1071 阅读 · 0 评论