CS231n Convolutional Neural Networks for Visual Recognition

@(机器学习和人工智能)[机器学习, CNN]

video link

Lecture 1 | Introduction to Convolutional Neural Networks for Visual Recognition

  1. History:
    • 1960s:recognize & reconstruct
    • object recognition is so hard first we do object segmetation
    • feature based segmetation:
    • SVM, boosting: complex;overfit(data quailty is changing)
  2. 两个最经典的data set:
    • PASCAL Visual Object Challenge(object detection benchmark )
    • ImageNet Large Scale Visual Recognition Challenge
  3. CNN基本算法在1998年由LeCun等提出,2012年在ImgeNet上大显身手火了起来,再次火起来原因:电路集成规模越来越大,GPU的快速发展,data的质量和数量爆炸式增长。
  4. 学习CNN的预备知识:微积分,线性代数,CS229

Lecture 2 | Image Classification

  1. Data Driven Approach
    1. Collect a dataset of images and labels
    2. Use Machine Learining to train a classifier
    3. Evaluate the classifier on new images

k-Nearest Neighbors(kNN)

  1. 在最近的k个邻居中,哪一类个数最多,就归为哪一类
  2. hyperparameters: choices about the algorithm that we set rather than learn
    how to set proper hyperparameters: split dataset into train, validation and test set
    • train set(most data)
    • validation set: envaluate
    • test set: test once
  3. k-Nearest Neighbors on imgages never used

Linear Classification

  1. super important and help us build CNNs
  2. parametric approach: image(array of numbers) f(x,W) (score function) 10 numbers giving class scores
    • x : input
    • W: weight or parameters
    • b : bias

      假设有10类,则最终得到10行1列的列向量,其中每个数字代表了是该类的可能性,数字越大可能性越大。
  3. 举例说明,下面是对于一个给定的W,4个像素的image,分为3类的计算过程:

    训练结果的可视化:
  4. Linear Classification可以理解为平面上的直线,各分类器将平面上的不同区域分为不同类别:

    所以有一些线性不可分问题,一层线性分类器是解决不了的,因为在平面上无法用一条直线将两类分开,如异或,或下图中的例子。

Lecture 3 | Loss Functions and Optimization

  1. loss funciton: quantify how good/bad our current classifier is given a dataset {(xi,yi)}Ni=1 , where xi is image and yi is (integer) label.
    1. L=1NiLi(f(xi,W),yi)
    2. Multiclass SVM loss: si=f(xi,W)
      Li=jyimax(0,sisj+1)


若s都很小,约等于0,则loss等于类别数量减一,可以用来debug。
4. Loss等于0的W不只一个,比如2W。
5. 不应该关注training data上的performance,而关注testing data上的。

回归项使其倾向于选择一个更简单的 W <script type="math/tex" id="MathJax-Element-393">W</script>。
6. 常见regularizaton:举例

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习-面向视觉识别的卷积神经网络,2016斯坦福大学公开课。课程介绍: 计算机视觉在社会中已经逐渐普及,并广泛运用于搜索检索、图像理解、手机应用、地图导航、医疗制药、无人机和无人驾驶汽车等领域。而这些应用的核心技术就是图像分类、图像定位和图像探测等视觉识别任务。近期神经网络(也就是“深度学习”)方法上的进展极大地提升了这些代表当前发展水平的视觉识别系统的性能。 本课程将深入讲解深度学习框架的细节问题,聚焦面向视觉识别任务(尤其是图像分类任务)的端到端学习模型。在10周的课程中,学生们将会学习如何实现、训练和调试他们自己的神经网络,并建立起对计算机视觉领域的前沿研究方向的细节理解。最终的作业将包括训练一个有几百万参数的卷积神经网络,并将其应用到最大的图像分类数据库(ImageNet)上。我们将会聚焦于教授如何确定图像识别问题,学习算法(比如反向传播算法),对网络的训练和精细调整(fine-tuning)中的工程实践技巧,指导学生动手完成课程作业和最终的课程项目。本课程的大部分背景知识和素材都来源于ImageNet Challenge竞赛。 主讲人: 李飞飞,斯坦福大学计算机科学系副教授。担任斯坦福大学人工智能实验室和视觉实验室主任,主要研究方向为机器学习、计算机视觉、认知计算神经学。她在TED上的演讲,如何教计算机理解图片。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值