深度学习(一)

1.深度学习概述

深度学习发展分为三个阶段:

阶段一:第一代神经网络(1958-1969)

起源于1943年的MCP人工神经元模型:输入信号加权、求和、非线性激活(阈值法)。

阶段二:第二代神经网络 (1986-1998)

Hinton于1986年提出多层感知器(MLP)的BP算法,采用Sigmoid进行非线性映射,解决了非线性分类;

1986年,决策树方法;

1989年,LeCun法命卷积神经网络LeNet;

1995年,SVM;

1997年,LSTM模型;

2000年,Kernal SVM;

2001年,随机森林;图模型;

阶段三:(2006~至今)

2006年深度学习元年;2011年,Relu;2012年,AlexNet;

深度学习结构:DNN, CNN, RNN, GAN.

2.多层全连接神经网络

优化函数:

一阶优化算法:通过梯度值更新参数,梯度下降。梯度即导数;

二阶优化算法:基于牛顿法,二阶导数计算成本高;

基于均方误差最小化来进行模型求解的方法:最小二乘。求解方法:偏导为0.

分类问题:监督学习主要分为回归问题和分类问题

逻辑分布(Logistic):连续随机变量X满足如下积累分布函数和密度分布函数

二分类逻辑回归:通过找到分类概率于输入变量x关系,通过比较概率值来判断类别

事件发生的机率:发生概率与不发生的比值p/(1-p):(Y=1的对数几率是输入x的线性函数)

思考:线性回归和逻辑回归之间的联系和区别?逻辑回归为什么使用Sigmod函数?

逻辑回归本质还是线性回归,逻辑回归在线性回归基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测。

二元分类:sigmoid;

多元分类:softmax;

经典的线性模型的优化目标函数是:最小二乘,而逻辑回归则是似然函数;

线性回归在整个实数域范围内进行预测,敏感度一致;

逻辑回归减小预测范围,将预测值限定为[0,1]间的一种回归模型,逻辑回归的鲁棒性比线性回归好;逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

Sigmoid激活函数:

缺点:梯度消失;初始权重要求谨慎;输出均值不为0;

变体:Tanh激活函数(2σ(2x)- 1)

Relu激活函数:

优点:加速收敛速度,线性,不会梯度消失;计算简单;

缺点:较脆弱(小于0的部分直接置零),解决方法是设置较小的学习率。

神经网络:N层神经网络一般不包含输入层;输出层一般没有激活函数;

优化算法:

(1)梯度下降法:(推导用到泰勒级数)

(2)随机梯度下降:SGD, 即每次使用一个Batch的数据进行计算,而非全部数据;

(3)Momentum: 增加动量(更新不仅依赖当前梯度,也依赖之前的梯度);

(4)Adagrad: 

(5) RMSrop:

(6) Adam   :(3 ) + (5)

数据预处理:中心化,即所有数据减去均值。

                      标准化:即除以标准差,或每个特征维度的最大值和最小值。

权重初始化:全0初始化(不推荐);随机初始化;稀疏初始化(先全部初始化为0,之后随机挑选随机赋值);

防止过拟合:

        L2正则化:对于权重过大的部分进行惩罚,可以让参数更新之后靠近0;

        L1正则化:在损失函数中增加权重的1范数;

        L1正则化可以是权重变得更加稀疏;L2正则化会比L1更加发散,权重被限制的更小;

        Dropout:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值