深度学习有两大主流方向,nlp和cv,nlp是自然语言处理,cv是计算机视觉。
这一期,我们跟随Datewhale进行计算机视觉的学习。
如何让计算机拥有视觉呢?
这个问题之前还有一个问题,什么是视觉?
我理解的视觉是看到+分析。
让计算机看到是很早就实现了的,通过光敏传感器将光线转到计算机的存储芯片中。
但是,从看到到可以让计算机“理解”是经过了很漫长的过程。
记得大学我刚学会matlab时候,心中充满了狂喜,觉得打开了世界的另一扇门,if……else……的逻辑关系让我觉得这个世界都可以用计算机来模拟,只要算力足够。
现在想来觉得有些好笑,这个世界变化万千,自身的if……else……都理不过来,又怎么谈他人的、宏观的、微观的if……else……呢。所以不是算力不够,是人力不够。
其实在cv初期,人们也同我一样有这样天真的想法。据说有所一流大学在几十年前,曾经利用暑期实习生(lianjialaodongli)来给计算机视觉写if……else……,最终失败了。这个世界总比他看起来的要复杂的多。
沉寂了几十年,直到最近,深度学习的兴起,以混沌处理混沌,取得了不错的成果。
很幸运,我们生活在这样的年代,也很幸运,有Datawhale这样的组织愿意开源的带领我们走进深度学习的世界。
深度学习的cv是端对端的,神经网络如同真的有思考一般,像素扔进来,就能输出不错的结果。这几年众多大牛已经让cv做的比人还好,下一步大牛们在试图理解这个“馄饨”,毕竟科学就要去解释超认知的东西。我相信,不久的将来,大牛们会成功的。
而我,一个普通的机器学习爱好者,大牛们玩腻的,在我这儿还是充满新鲜和挑战。
这一次的的赛题是街道数字识别。数字识别,很容易就想到了经典的手写mnist识别,但是街道数字识别比mnist识别难,体现在①mnist只有0~9十个数,softmax只有十种可能,蒙都有1/10的概率正确,训练起来也很容易收敛,但是街道数字识别数字长度不一定,如果按照5位数的话有一万种可能,训练集只有四万,很容易就过拟合了;②如果想将街道数字识别简化为mnist识别,就需要增加一步,框选出每个数字。框选数字的操作类似于segement,吴恩达老师的深度学习课堂里有讲过,可以借鉴一番。
Datawhale 零基础⼊⻔CV-Task1 赛题理解
最新推荐文章于 2020-05-20 23:58:23 发布