lesson1
- 三大任务之识别:eg:车牌识别,人脸识别
- 三大任务之目标检测:
- object detection=classification +localization
- 三大任务之分割:
- 图像语义分割
- 个体分割=检测+分割
- 任务:视觉目标跟踪
- 任务:视频分割:无人驾驶
- 有趣的应用:图像风格迁移
- 生成对抗网络(GAN)
- ?逐渐变脸,比如实现直播换脸
- https://github.com/tjwei/GANotebooks
- 视频生成
- 做预测
- https://coxlab.github.io/prednet
- 金融股票涨幅预测
- 视觉识别,语音识别,DeepMind,AlphaGo
- 深度学习简介
- VGGNet,GoogleNet,ResNet(参差网络),DenseNet
- 常见的深度学习平台
- pytorch
- tensorflow
- caffe
- 介绍计算机视觉的图像识别,目标检测,图像和视频分割,实现这些任务需要的算法,模型以及实战应用
图像识别:Alexnet,VGGnet,GooleNet,ResNet,RetinaNet
目标检测:Fas-rcnn,faster-rcnn,Yolo,Retina-Net
图像分割:FCN,Mask-Rcnn
目标跟踪:GOTURN,ECO
图像生成:GAN,WGAN
光流:FlowNet
视频分割:Segnet
lesson2
- 图像分类
- 图像分类的挑战:光照变化,形变
- 图像分类定义:y= f(x)
- 泛化能力训练集:(标签已知);测试集(标签未知)
- 如何提高泛化能力?用图像特征来描述图像
- 训练和测试的流程:
训练:提取训练图像特征-训练(训练标签)-学习分类
测试:提取测试图片特征-学习分类-预测 - 图像特征:
颜色:全局特征RGB颜色统计直方图(Quantize RGB values):位移、旋转、遮挡(缺点)
形状:PCA降维:位移、尺度(?)、旋转、遮挡(缺点)
局部特征:位移、尺度、旋转(?)、遮挡(缺点)
纹理:滤波:位移、尺度(?)、旋转(?)、遮挡(缺点) - 典型图像特征 http://www.vlfeat.org/ 抽样检测,提取特征
SIFT:局部特征,4*4格
HoG:检测特征:目标形状,目标跟踪
LBP:对局部区域进行编码:人脸关键区域进行捕捉响应
Harr:滤波器:形状敏感 - 支持向量机(SVM)
给定训练集,分类学习的最基本的想法是基于训练集在样本空间中找到一个划分超平面
超平面与支持向量
分类函数:f(x)=w^Tx+b
超平面:w^Tx+b=0
?:SVM分类水仙花分类 - CNN特征(更优)
构造神经网络学习出来的
神经网络做图像分类 http://cs231n.github.io/convolutional-networks/
神经网络搭建: f=Wx(一层层堆起来的神经网络)
神经网络的基本单位:
神经元 mention:激励函数
卷积层:输入图像-卷积核-特征图
卷积滤波的计算
卷积层可视化
池化层:对特征进行压缩采样 特征表达更加紧凑,同时具有位移不变性
全连接层:全连接权重是W - 损失函数:不同的task对应不同的loss
交叉熵损失函数(SIGMOID_CROSS_ENTROPY_LOSS):sigmoid函数来作为输出层 应用于二分类问题
Softmax损失函数(SOFTMAX_LOSS):softmax作为输出层 应用于多分类问题
欧式距离损失函数(EUCLIDEAN_LOSS):应用于回归问题
对比损失函数(Contrastive loss):用来计算两个图像之间的相似度,image match
Triplet loss: http://blog.csdn.net/tangwei2014/article/details/46788025 - 训练网络 http://caffe.berkeleyvision.org/tutorial/forward_backward
通过梯度反转来训练整个网络(不断迭代的过程) - 测试