问1:有监督学习中,机器学习是什么?
答1:机器学习就是先假设一个函数,使用训练样本来选取最优的参数;当有新样本时,把特征输入已训练好的函数中,得到预测值。
问2:神经网络中,神经元的作用是什么?
答2:1)对输入特征进行线性加权:z=w1*a1+w2*a2+w3*a3+...+b,其中wi是权重,ai是特征值,b是bias
2)使用激活函数使神经网络可以逼近任何函数:s(z)=1/(1+e^(-z))
问3:神经网络中,激活函数的作用是什么?
答3:如果没有激活函数,那么每个隐层都是线性的,整个神经网络都是线性的,相当于没有隐层(相当于原始的感知机),加入激活函数后,神经网络可以逼近任何函数
问4:激活函数,为什么引入Relu呢?
答4:1)sigmod函数求导涉及除法,计算量大
2)sigmod函数接近饱和区时,导数趋于0,会出现梯度消失的情况,无法完成网络训练
3)Relu会使一部分神经元输出为0,造成网络稀疏,防止过拟合
问5:深度学习的'深度'体现在哪里?
答5:1)体现在有很多隐层。
2)意义在于需要更少的样本量。
3)每层都学习到更抽象的特征
问6:输出层是什么样的?
答6:1)softmax层作为输出层
2)yi'=e^zi/∑(e^zi)
问7:深度学习的loss function是什么?
答7:∑(|yi‘-yi|) yi'是预测向量,yi是真实向量
问8:怎么求解深度神经网络?
答8:1)loss function=∑(|yi‘-yi|)
2) yi'=e^zi/∑(e^zi)
3)zi=1/(1+e^(-zi’))
4)zi’=w1*a1+w2*a2+w3*a3+...+b
5)loss function中参数为wi,b,使用随机梯度下降法对各个wi求偏导,进而求得最优解
问9:随机梯度下降会存在什么问题?
答9:会出现局部最优解
问10:深度学习如何调优?
答10:1)选择合适的loss function
2)mini-batch 分批处理
3)新的激活函数
4)设置学习率
5)使用Momentum找到全局最优解
6)early stopping
7)Weight Decay
8)Dropout
问11:loss function有哪些?
答11:1)square error = ∑(yi-yi')^2
2)cross entropy = - ∑yi'*lnyi
问12:mini-batch是什么,有哪些好处?
答12:1)把样本分成多个batch,每次最小化一个batch的loss function,更新相应参数,并非对整个样本集的loss进行最小化
2)好处:mini-batch速度更快,效果更好
问13:mini-batch和epoch有什么区别?
答13:1)一个epoch由多个mini-batch训练过程组成
2)一个epoch对应了一个完整的样本集
问14:常用的激活函数都有哪些?
答14:1)logit函数 1/(1+e^(-z))
2)Relu函数 z小于0时,输出0;z大于0时,输出z
3)Leaky Relu函数 z小于0时,输出0.01*z;z大于0时,输出z
4)Parametric Relu函数 z小于0时,输出a*z;z大于0时,输出z
5)Maxout 多个输入,输出最大的元素
问15:为什么设置学习率?
答15:1)学习速度太快,可能在本次epoch后,已经求得最优解;下次epoch后,loss反而增大;即跳过了最优解
2)学习速度太慢,训练很慢
问16:常见的学习率的形式?
答16:1)所有参数相同的学习率,时间衰减:
答1:机器学习就是先假设一个函数,使用训练样本来选取最优的参数;当有新样本时,把特征输入已训练好的函数中,得到预测值。
问2:神经网络中,神经元的作用是什么?
答2:1)对输入特征进行线性加权:z=w1*a1+w2*a2+w3*a3+...+b,其中wi是权重,ai是特征值,b是bias
2)使用激活函数使神经网络可以逼近任何函数:s(z)=1/(1+e^(-z))
问3:神经网络中,激活函数的作用是什么?
答3:如果没有激活函数,那么每个隐层都是线性的,整个神经网络都是线性的,相当于没有隐层(相当于原始的感知机),加入激活函数后,神经网络可以逼近任何函数
问4:激活函数,为什么引入Relu呢?
答4:1)sigmod函数求导涉及除法,计算量大
2)sigmod函数接近饱和区时,导数趋于0,会出现梯度消失的情况,无法完成网络训练
3)Relu会使一部分神经元输出为0,造成网络稀疏,防止过拟合
问5:深度学习的'深度'体现在哪里?
答5:1)体现在有很多隐层。
2)意义在于需要更少的样本量。
3)每层都学习到更抽象的特征
问6:输出层是什么样的?
答6:1)softmax层作为输出层
2)yi'=e^zi/∑(e^zi)
问7:深度学习的loss function是什么?
答7:∑(|yi‘-yi|) yi'是预测向量,yi是真实向量
问8:怎么求解深度神经网络?
答8:1)loss function=∑(|yi‘-yi|)
2) yi'=e^zi/∑(e^zi)
3)zi=1/(1+e^(-zi’))
4)zi’=w1*a1+w2*a2+w3*a3+...+b
5)loss function中参数为wi,b,使用随机梯度下降法对各个wi求偏导,进而求得最优解
问9:随机梯度下降会存在什么问题?
答9:会出现局部最优解
问10:深度学习如何调优?
答10:1)选择合适的loss function
2)mini-batch 分批处理
3)新的激活函数
4)设置学习率
5)使用Momentum找到全局最优解
6)early stopping
7)Weight Decay
8)Dropout
问11:loss function有哪些?
答11:1)square error = ∑(yi-yi')^2
2)cross entropy = - ∑yi'*lnyi
问12:mini-batch是什么,有哪些好处?
答12:1)把样本分成多个batch,每次最小化一个batch的loss function,更新相应参数,并非对整个样本集的loss进行最小化
2)好处:mini-batch速度更快,效果更好
问13:mini-batch和epoch有什么区别?
答13:1)一个epoch由多个mini-batch训练过程组成
2)一个epoch对应了一个完整的样本集
问14:常用的激活函数都有哪些?
答14:1)logit函数 1/(1+e^(-z))
2)Relu函数 z小于0时,输出0;z大于0时,输出z
3)Leaky Relu函数 z小于0时,输出0.01*z;z大于0时,输出z
4)Parametric Relu函数 z小于0时,输出a*z;z大于0时,输出z
5)Maxout 多个输入,输出最大的元素
问15:为什么设置学习率?
答15:1)学习速度太快,可能在本次epoch后,已经求得最优解;下次epoch后,loss反而增大;即跳过了最优解
2)学习速度太慢,训练很慢
问16:常见的学习率的形式?
答16:1)所有参数相同的学习率,时间衰减: