李宏毅机器学习-part1

最新推荐文章于 2022-07-10 01:23:29 发布

IceForest1

最新推荐文章于 2022-07-10 01:23:29 发布

阅读量361

点赞数

分类专栏：机器学习文章标签：李宏毅机器学习

本文链接：https://blog.csdn.net/ooxxshaso/article/details/90172918

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

10.L0-Norm,L1-Norm,L2-Norm

11.为什么用L1-Norm代替L0-Norm

12.学习为什么只对w/Θ做限制，不对b做限制

13.误差从哪里来

1.中心极限定理的概念

中心极限是指多次抽样分布的均值会呈现正态分布，且抽样分布的均值等于总体均值

2.正态分布

是一种连续型的概率分布，随机变量服从概率密度函数 $f(x) = \frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{(x-u)^{2}}{2\sigma^{2}}}$ ,均值为u,方差为 $\sigma^{2}$

3.极大似然估计

极大似然估计就是根据已经发生的事件来估计事件发生的概率 $\theta$ ,求出合适的参数 $\theta$ 来使得事件发生的概率最大

4.推导回归Loss function

损失函数是用来衡量一组参数的好坏，我们假设回归函数的公式为 f(x) = w*x+b , L(f) 为损失函数，则 $L(f) = L(w,b) = \Sigma (\hat{y}-y)^{2}$ , $\hat{y}$ 为真实数值，y为预测值。我们的目的就是使预测值和实际值越接近越好，所以损失函数L(f）最小化。

$f^{*} = argmin_{f}L(f)$

5.损失函数与凸函数之间的关系

如果损失函数是凸函数，那么一定有全局最优解，且不论初始值如何选取

6.全局最优和局部最优

当损失函数存在局部最小值时，若初始点选择不当则可能会造成局部最优解，但是现实中很少出现局部极小值的情况

7.推导梯度下降公式

首先随机选取 $w_{0}的初始值$ 的初始值，然后对损失函数L(w,b)分别对w,b求偏导， $\frac{\partial L}{\partial w} = 2\sum (\hat{y}-(b+w*x))(-x)$ , $\frac{\partial L}{\partial d} = \sum(_hat{y}-(b+w*x)*(-1))$ ,然后更新w和b的值， $w_{1} = w_{0} - \eta \frac{\partial L}{\partial w}$ , $b_{1} = b_{0} - \eta \frac{\partial L}{\partial b}$ ,重复，直到损失函数取到最小值时取此时的w和b的值为此线性回归的参数

8.梯度下降的代码实现

import numpy as np
def LinearRegressionGD(object):
    def __init__(self,eta = 0.001,n_iter = 50):
        self.eta = eta
        self.n_iter = n_iter
    def fit(self,X,y):
        self.w_ = np.random.random(X.shape[1]+1) #
        self.cost_ = []
        
        for i in range(self.n_iter):
            output = net_input(X)
            errors = y - output
            self.w[1:] += self.eta*X.T.dot(errors)
            self.w[0] += self.eta.errors.sum()
            cost = 0.5*(errors**2).sum()
            self.cost_.append(cost)
        return self
    
    def net_input(self,X):
        return np.dot(X,self.w_[1:]) + self.w_[0]