机器学习的:训练和预测,即归纳和演绎
假设-->评价-->优化
将数据划分为训练集和测试集,其中训练集用于确定模型的参数,测试集用于评判模型的效果。
在房价预测的案例中,有80%的数据用于训练集,20%用于测试集。对特征取值范围进行归一化处理,对训练集和测试集都进行归一化处理,其中测试集是使用训练集的均值和极值来进行计算,
模型好坏的衡量指标:损失函数。通常是使用均方误差来作为评价模型好坏的指标。
在求解损失函数的最小值时,通常是使用梯度下降法来求解,(使用求导的方法来求并不可取,正向计算简单,但反向求解是比较难的。但这种在密码学和军事中应用比较多),怎样才能比较快的选到最低点:
确定方向和步长。
随机梯度下降:每次只随机选出一部分数据来代表整体,基于者部分数据来计算梯度和损失函数来更新参数,而不是全部的样本数据来计算,这样计算量不是很大,性能比较高(特别的样本量非常大时,差别会更明显)。
一般的实现流程:
房价预测的案例是机器学习的入门;手写数字识别是深度学习的入门。
房价预测之后还可以进行反归一化,这样得到的结果和真实的值会更接近。
图片的翻转与裁剪的实现:图像是由像素点构成的矩阵,数值可以用ndarray来表示。
翻转:垂直+水平方向的翻转