先抛出几个问题:
1、怎么求解
2、优缺点
3、反向传播,梯度为什么会弥散
4、激活函数怎么选取
5、几个优化方案?
零、为什么要引入神经网络
回想SVM从线性可分情况,转到非线性可分时,引入了核函数,将样本空间映射到高维线性可分空间。
同样的,神经网络的隐含层也在做这种事情,在高维空间中找到几个特征,可以放到输出层的激活函数里,利用线性学习器来输出结果。
再啰嗦一句,特征工程+LR < GBDT+LR < 神经网络 +LR < CNN+DNN+LR (我脑补的哈哈哈哈)
一、神经元模型
神经网络中最基本的成分就是神经元模型:
神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元收到的总输入值将与神经元的阈值(又叫偏置)进行比较,然后通过“激活函数”处理以产生神经元的输出。
激活函数,你可以理解为,要么就激活,要么不激活,那么可以用阶跃函数表示,但是这个函数具有 不连续、不光滑等不太好的性质,因此