对“机器视觉”的一点思考

从小孔成像到凸透镜成像,原理其实是一样的,就是光的直线传输,从而在视网膜上成像,并通过神经元传递到大脑,进行进一步的图像处理与分析。如上图所示,物理世界是一个巨大的世界,由无数个原子构成,而视网膜是如此的小,如果要1:1呈现在小小的视网膜上是不现实也是根本不可能的,所以人的视网膜精度是有限的,对于远处的事物如果不走近看根本看不清,如果要1:1呈现现实世界,则需要非常长的焦距,这只有借助于人工建造的望远镜才行。

那么人眼的精度也就是像素到底是多少呢?据说有1亿个像素点,相当于超高清的相机,也就是10000*10000。搜索一下“人眼分辨率”,可以看到有一个说5.7亿像素的说法。而目前的相机最高也就是4K,5K,6K等等,因为再高的话一般的电脑屏幕也分辨不了了,除非特制的电脑大屏幕。而且人有两只眼睛,双目摄像头分布在人脸的左右部分,有一大部分视野是重叠的。而且,随着人的运动,人的眼睛实际上捕获的是动态的图像,也就是视频,这对于大脑来说,图像太高清了处理起来更费脑力,所以人眼的实际分辨率要比5.7亿小很多,因为大脑只会抽取有用的信息,而无用的信息会删除,提取出精华,相对应的人眼也只会集中在想看的部分。

另外,对于生成一张图像可能的概率有像素点个数的256阶次方的可能性组合方式,这是一个非常大的数字。对于一张320*240的图片,就有25676800种可能性的组合方式。如果是黑白两种也有276800这也是一个大的数字,而这生成的仅仅只是一个轮廓,便已经无穷大种组合方式了。可见图像如果没有先验知识,让电脑随机生成一张理想的图像是一件非常非常非常非常难的事情,好比让不懂字的含义的电脑自己写一部《哈姆雷特》。由此可见要教会电脑图画和文字是一件艰巨的任务。要灌输很多的知识或者说是规则。比如画家都是怎么做画的?诗人都是怎么写诗的?小说家是怎么写小说?剧作家怎么写剧本。。等等。

谁还记得“棋盘麦粒”问题吗?一个国王问象棋的发明者想要什么,他说他想要麦粒,多少个呢?就是在第一个格子上放一颗麦粒,第二个格子放两颗麦粒,依次以2倍递增,放满64个格子。国王以为这很少啊。可是经过计算发现264是一个天文数字,整个地球一年都没有这么多的麦粒。这个例子告诉我们2的指数增长是一个可怕的数字。如下图随手用PS画了一个8*8像素大小的图像。

看上去很是不起眼,可就是这么一张随意的图像,确实1/264的概率组织而绘制成的。也就是说这张随机的图像是如此的独一无二。

又比如“我”字,放在8*8棋盘中,是怎样的呢?

如上所示,竟然基本上还可以看出“我”这个字的样子,它跟上面随机画的都是1/264的概率组织而成的。而它确实有意义的,对于人类的大脑而说,它是赋有含义的。而上面的那个则没有。放大来看,这个棋盘文字在PS里是如下面存储的。

它的二值化编码为:00111100111111110111111111111111011100....一个64位的编码。

从中可以看出64格棋盘文字与数字之间的关联。[>>联想:尺度(清晰度)真的重要吗?人脸编码的重要的特征最少有多少个组成?]

由此可见,图像和视频都是十分宝贵的资料。同理,声音文字也是如此。

那么如何像画家一样生成自己想要的图像呢?

答案是把握主要信息,关键信息,先生成主要的框架,再在局部润色。生成关键帧图像之后,再穿插间帧图像即可生成视频。

转载于:https://www.cnblogs.com/2008nmj/p/10016420.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值