Datawhale 零基础⼊⻔CV-Task1 赛题理解

最新推荐文章于 2020-05-20 23:58:23 发布

Andrew_zjc

最新推荐文章于 2020-05-20 23:58:23 发布

阅读量275

点赞数 1

文章标签：人工智能

本文链接：https://blog.csdn.net/Andrew_zjc/article/details/106202318

版权

深度学习有两大主流方向，nlp和cv，nlp是自然语言处理，cv是计算机视觉。
这一期，我们跟随Datewhale进行计算机视觉的学习。
如何让计算机拥有视觉呢？
这个问题之前还有一个问题，什么是视觉？
我理解的视觉是看到+分析。
让计算机看到是很早就实现了的，通过光敏传感器将光线转到计算机的存储芯片中。
但是，从看到到可以让计算机“理解”是经过了很漫长的过程。
记得大学我刚学会matlab时候，心中充满了狂喜，觉得打开了世界的另一扇门，if……else……的逻辑关系让我觉得这个世界都可以用计算机来模拟，只要算力足够。
现在想来觉得有些好笑，这个世界变化万千，自身的if……else……都理不过来，又怎么谈他人的、宏观的、微观的if……else……呢。所以不是算力不够，是人力不够。
其实在cv初期，人们也同我一样有这样天真的想法。据说有所一流大学在几十年前，曾经利用暑期实习生（lianjialaodongli）来给计算机视觉写if……else……，最终失败了。这个世界总比他看起来的要复杂的多。
沉寂了几十年，直到最近，深度学习的兴起，以混沌处理混沌，取得了不错的成果。
很幸运，我们生活在这样的年代，也很幸运，有Datawhale这样的组织愿意开源的带领我们走进深度学习的世界。
深度学习的cv是端对端的，神经网络如同真的有思考一般，像素扔进来，就能输出不错的结果。这几年众多大牛已经让cv做的比人还好，下一步大牛们在试图理解这个“馄饨”，毕竟科学就要去解释超认知的东西。我相信，不久的将来，大牛们会成功的。
而我，一个普通的机器学习爱好者，大牛们玩腻的，在我这儿还是充满新鲜和挑战。
这一次的的赛题是街道数字识别。数字识别，很容易就想到了经典的手写mnist识别，但是街道数字识别比mnist识别难，体现在①mnist只有0~9十个数，softmax只有十种可能，蒙都有1/10的概率正确，训练起来也很容易收敛，但是街道数字识别数字长度不一定，如果按照5位数的话有一万种可能，训练集只有四万，很容易就过拟合了；②如果想将街道数字识别简化为mnist识别，就需要增加一步，框选出每个数字。框选数字的操作类似于segement，吴恩达老师的深度学习课堂里有讲过，可以借鉴一番。

Andrew_zjc

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale 零基础⼊⻔CV-Task1 赛题理解

深度学习有两大主流方向，nlp和cv，nlp是自然语言处理，cv是计算机视觉。这一期，我们跟随Datewhale进行计算机视觉的学习。如何让计算机拥有视觉呢？这个问题之前还有一个问题，什么是视觉？我理解的视觉是看到+分析。让计算机看到是很早就实现了的，通过光敏传感器将光线转到计算机的存储芯片中。但是，从看到到可以让计算机“理解”是经过了很漫长的过程。记得大学我刚学会matlab时候，心中充满了狂喜，觉得打开了世界的另一扇门，if……else……的逻辑关系让我觉得这个世界都可以用计算机来模拟，只
复制链接

扫一扫