1.传统机器学习算法:输入–人工特征提取–权重学习–预测结果。
2.深度学习:输入–基础特征提取(像素)–多层复杂特征提取(线条,轮廓–简单形状–复杂形状)–权重学习–预测结果
3.特点:多层非线性 非线性(通过激活函数实现) 多层(解决异或问题,从而有组合特征提取的功能)
4.神经网络优化算法:梯度下降算法(在全部训练数据上最小化损失,不一定为全局最优)随机梯度下降(随机优化某一条训练数据,可能无法达到局部最优) 折中:每次计算一小部分训练数据的损失函数
5.损失函数下降的速度和迭代结束之后总损失的大小没有必然的联系,也就是说并不能通过前几轮损失函数下降的速度来比较不同神经网络的效果
6.解决过拟合:正则化(L1正则化让参数变得更洗漱,即让更多的参数变为0,这样可以达到类似特征选取的功能)
7.当网络结构复杂之后计算损失函数的部分可能不在同一个函数,通过变量这种方式就不方便
var = tf.Variable(tf.random_normal(shape),dtype=tf.float32)
tf.add_to_collection(
"loss",tf.contrib.layer.12_regularizer(lambda)(var))
mse_loss = tf.reduce_mean(tf.square(y_ - cur_layer))
tf.add_to_collection("loss",mse_loss)