解决上溢和下溢:
- softmax
SVM:
- 这个函数关于x 是非线性的,关于ϕ(x) 是线性的
- 核函数有用的原因:(1)够使用保证有效收敛的凸优化技术来学习非线性模型;(2)核函数k 的实现方法通常有比直接构建ϕ(x) 再算点积高效很多
PCA:
- 将数据变换为元素之间彼此不相关表示
SGD:
- 梯度是期望。期望可使用小规模的样本近似估计
正则化:
- L2范数:权重衰减,只有在显著减小目标函数方向上的参数会保留得相对完好。
- L1范数:解比L2更加稀疏,由L1正则化导出的稀疏性质已经被广泛地用于特征选择
- Dropout:计算方便,不怎么限制适用的模型或训练过程,
卷积:
- 稀疏交互:较少计算量
- 参数共享:
- 平移不变性:是卷积运算的一个特点|结合参数共享,可以在第一层进行通一种边缘的检测,就是因为平移不变性。
- 高效卷积:卷积等效于使用傅立叶变换将输入与核都转换到频域、执行两个信号的逐点相乘,再使用傅立叶逆变换转换回时域
池化:
- 起到了采用的功能
- 局部平移不变性,有近似的平移不变性(关心特征是否出现,不关心所在位置)
RNN:
- BPTT 考虑了层级间的纵向传播和时间上的横向传播(U)
- W:词向量->隐藏层空间;U: 隐藏层->隐藏层,利用之前的记忆;V:隐藏层个数->词向量个数;s->h:是tanh,不能是softmax,会造成梯度消失