习题提示
5.1:理想的激活函数能很好地体现激活与抑制的两种状态,如【西瓜书图5.2(a)】所示,其中,抑制状态用0表示而不用-1,是由于乘法中0的特殊性刚好符合“抑制”的要求。 为数学计算方便,应选择能逼近理想激活函数的、且数学性质好(如,易求导)的函数作为激活函数,如【西瓜书图5.2(b)】所示。
题中的线性函数不能逼近理想激活函数,因为它的“样子”为:(1)无界,要再串联一个分段函数才能转化成二分类时;(2)关于原点对称,形成正激励和负激励,起不到抑制作用。
5.2:
参见5.1 误差逆传播算法(BP算法)神经元模型的最后一段:
对率回归由【西瓜书(3.18)(3.19)】描述,而题中所述神经元由【西瓜书图5.1】右上角公式及【西瓜书图5.2(b)】的公式描述。 比较二者知:公式是一致的(记
θ
=
−
b
\theta =-b
θ=−b)。 二者的解释意义反映不同的侧面:一个是从概率角度,一个是从神经元角度。 结合起来就是:神经元的输出可以视为样本为正例的概率。
5.3:
仿【西瓜书p.102-103】中
w
h
j
w_{hj}
whj相关公式的推导,详细推导5.4 BP算法的高级表达。
5.4:
学习率实际为沿负梯度方向前进的步长,当步长过小时,一方面收敛速度较慢,另一方面易陷入局部极小而不能自拔;当步长过大时,在目标函数最小值附近时,易跨过最小值(即错过收敛到最小值的机会),产生震荡。 通常采用逐步减小学习率的策略。
5.5:
编程方面可以到网上搜索参考材料,这里,我们推导和讨论累计BP算法。
参见5.1 误差逆传播算法(BP算法)中的“累计BP算法”
神经网络的输入为数字特征,然而,题中的数据集【西瓜书表4.3】包含有非数字特征,如,色泽 ∈ { 青绿,乌黑,㳀白 } \in\{ \text {青绿,乌黑,㳀白}\} ∈{青绿,乌黑,㳀白},需要数字化。 我们将这种“数据字典式”的特征改造为“判断式”(1表示是,0表示不是),即以(1,0,0)、(0,1,0)、(0,0,1)分别表示这三种色泽,这样,特征“色泽”由一维扩展成了三维,实现了数字化。
5.6:学习率 0 < η < 1 0<\eta <1 0<η<1。
(1)基于时间 t t t(即迭代次数)的调整策略:
作一个递减地趋于0的数列: η 1 , η 2 , η 3 , ⋯ {\eta}_1,{\eta}_2,{\eta}_3,\cdots η1,η2,η3,⋯(例如, η k = 0. 9 k {\eta}_{k}=0.9^k ηk=0.9k),然后,每迭代一次(或其它次数)更换下一个 η k {\eta}_k ηk。
(2)基于梯度的调整学习率:
当点的梯度较大时,处于较陡的位置,很可能离最终收敛还有一段较远的距离,因此,应选较大的学习率以加大前进步子,反之,当梯度较小时,可能接近收敛处,应使用较小的学习率进行谨慎搜索。 例如,取梯度(或历史梯度)的
L
2
L_2
L2范数的倒数作为缩放学习率的因子,如:
η
⋅
1
r
+
δ
\begin{align} \eta \cdot\frac{1}{\sqrt{\boldsymbol{r}}+\delta } \end{align}
η⋅r+δ1
其中,
r
\sqrt{\boldsymbol{r}}
r为梯度的
L
2
L_2
L2范数,
δ
\delta
δ是为防止分母为0并保证分式小于1.
5.7:
参见5.2 RBF网络(单层RBF就可解决异或问题)与ART网络(实现“自适应谐振”)中的“图5.5 单层RBF神经网络”的讨论。
5.8:
参见5.3 SOW网络、Elman网络、Boltzmann机中的“图5.8 SOM神经网络”的讨论。
编程或下载程序实现算法。
5.9:
参见5.3 SOW网络、Elman网络、Boltzmann机中的“Elman网络”的讨论。
5.10:易从网上找到用于手写数字识别的卷积神经网络程序,如果自己编的话,可以先编一些子网(功能部件),再由这些子网构成卷积神经网络,再进行参数训练。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:周志华西瓜书《机器学习》习题提示——第4章
下一篇:6.1 支持向量机SVM的基本型(对偶要KKT条件,不是找对象的条件)