斯坦福李飞飞-深度学习计算机视觉笔记
说明:http://study.163.com/course/courseMain.htm?courseId=1003223001
Image Classification pipeline
1,Images are represented as 3D arrays of numbers, with integers between [0, 255],比如说300 x 100 x 3(3 for 3 color channels RGB)
2,Challenges:Viewpoint Variation【视角不同】,Illumination【照明】,Deformation【变形】,Occlusion,Background clutter【光影等干扰】,Intraclass variation【同类内的差异】
3,Data-driven approach:
- Collect a dataset of images and labels
- Use Machine Learning to train an image classifier
- Evaluate the classifier on a withheld set of test images
4,cross-validation
We saw that the choice of distance and the value of k are hyperparameters that are tuned using a validation set, or through cross-validation if the size of the data is small。
Loss functions and Optimization
Loss functions
Data Preprocessing
去均值:对待训练的每一张图片的特征,都减去全部训练集图片的特征均值,这么做的直观意义就是,我们把输入数据各个维度的数据都中心化到0了。不同的做法:直接求出所有像素的均值,然后每个像素点都减掉这个相同的值;稍微优化一下,我们可以在RGB三个颜色通道分别做这件事。
归一化:在数据都去均值之后,每个维度上的数据都除以这个维度上数据的标准差。或者除以数据绝对值最大值,以保证所有的数据归一化后都在-1到1之间。
归一化,归一化的直观理解含义是,我们做一些工作去保证所有的维度上数据都在一个变化幅度上。通常我们有两种方法来实现归一化。一个是在数据都去均值之后,每个维度上的数据都除以这个维度上数据的标准差(X /= np.std(X, axis = 0))。另外一种方式是我们除以数据绝对值最大值,以保证所有的数据归一化后都在-1到1之间。
**数据增强:**256x256中提取中心和四角的224x224子图片x5;水平翻转x2