softmax e的N次方,然后除以和
square error 方差
cross entroy 交叉熵,解决方差梯度太小,回归太慢的问题
Adagrad 计算learning rate
RMSProp 计算learning rate
Momentum 修正梯度方向
Adam RMSProp+Momentum
dropout 每次training的时候,丢弃p%神经元,testing的时候,weight乘以(1-p%).负重训练,追求更好的testing结果。
regularization 使梯度更平滑,使参数不要离0太远,解决overfitting
early stopping 从training set中分一个validation set,模拟testing set,解决overfitting
vanishing gradient problem DNN层次太多,sigmond函数导致靠近input layer的参数学习速率太慢,靠近output layer的参数学习速度太快
relu 解决vanishing gradient problem
maxout relu的一种特殊的relu
convolutional neural network 卷积神经网络
convolution 使用filter进行特征提取
max pooling subsample,对图形进行缩放
flatten 将N维数据转化为1维
modularization 模组化,一种编程思想。DNN只需少量参数就能强大的原因。每个neural可以视为一个分类器,简单分类器组合成复杂分类器。某类复杂属性对应的数据比较少,不好train,但是组成复杂属性的简单属性的数据特别多,容易train,train好了简单属性,复杂属性也就可以搞定了。所以,train需要的数据也可以变少。 只有一层的DNN,可以解决问题,但是它是没有效率的。
半监督学习,有三大假设
- 概率假设 semi-supervised generative model soft label(分数) 先初始化一些模型参数,得到分布函数,然后使用label data,unlabel data更新模型参数,得到新的分布函数,如此往复
2.low-density separation assumption 不同类的边界区域样本特别少,非黑即白
self-training hard label(整数) 一种low-density separation方法.先用label data训练出参数,然后对一些unlabel data进行标识,增加label data。然后用新的全部label data训练出新参数,如此往复。
entropy-based regularization label data分类正确,unlabel data分类后的概率信息熵尽量小。这是一个非黑即白的世界
- smoothness assumption 近朱者赤,近墨者黑 向量x1,x2在高密度区域接近,则y1,y2是一样的
graph-based approach 定义向量距离函数,建立连接图。AB如果同类,则中间有很多数据实例把它们连接.定义一个smoothness函数表示整个图的平滑程度,作为regularization,被加在label data建立的Loss函数后面,其中unlable data的标签作为回归参数,然后对整体进行剃度下降,计算出unlabel data的标签.(label data标签正确,整个图平滑)
graph laplacian L=D-W W是权重图,D是对角线矩阵
cluster and then label 利用全部data进行聚类,基于smoothness assumption对unlabel data进行标识
无监督学习有两大类
1.clustering & dimension reduction 化繁为简
2.generation 无中生有
clustering 的两种方法
-
K-means 预先选择k个数据作为中心,然后遍历数据,对数据进行分类,然后更新中心,如此往复
-
HAC 建立一棵树,叶节点是单个数据,然后根据相似度,叶节点组合成非叶节点,最终组合成root节点
PCA 线性降维,只有一层的神经网络,autoencoder的特殊形式,因为autoencoder可以是非线性的
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。因此我们认为,最好的k维特征是将n维样本点变换为k维后,每一维上的样本方差都尽可能的大。</