对“机器视觉”的一点思考

最新推荐文章于 2024-07-25 18:39:37 发布

weixin_30539835

最新推荐文章于 2024-07-25 18:39:37 发布

阅读量109

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/2008nmj/p/10016420.html

版权

从小孔成像到凸透镜成像，原理其实是一样的，就是光的直线传输，从而在视网膜上成像，并通过神经元传递到大脑，进行进一步的图像处理与分析。如上图所示，物理世界是一个巨大的世界，由无数个原子构成，而视网膜是如此的小，如果要1:1呈现在小小的视网膜上是不现实也是根本不可能的，所以人的视网膜精度是有限的，对于远处的事物如果不走近看根本看不清，如果要1:1呈现现实世界，则需要非常长的焦距，这只有借助于人工建造的望远镜才行。

那么人眼的精度也就是像素到底是多少呢？据说有1亿个像素点，相当于超高清的相机，也就是10000*10000。搜索一下“人眼分辨率”，可以看到有一个说5.7亿像素的说法。而目前的相机最高也就是4K，5K，6K等等，因为再高的话一般的电脑屏幕也分辨不了了，除非特制的电脑大屏幕。而且人有两只眼睛，双目摄像头分布在人脸的左右部分，有一大部分视野是重叠的。而且，随着人的运动，人的眼睛实际上捕获的是动态的图像，也就是视频，这对于大脑来说，图像太高清了处理起来更费脑力，所以人眼的实际分辨率要比5.7亿小很多，因为大脑只会抽取有用的信息，而无用的信息会删除，提取出精华，相对应的人眼也只会集中在想看的部分。

另外，对于生成一张图像可能的概率有像素点个数的256阶次方的可能性组合方式，这是一个非常大的数字。对于一张320*240的图片，就有256⁷⁶⁸⁰⁰种可能性的组合方式。如果是黑白两种也有2⁷⁶⁸⁰⁰这也是一个大的数字，而这生成的仅仅只是一个轮廓，便已经无穷大种组合方式了。可见图像如果没有先验知识，让电脑随机生成一张理想的图像是一件非常非常非常非常难的事情，好比让不懂字的含义的电脑自己写一部《哈姆雷特》。由此可见要教会电脑图画和文字是一件艰巨的任务。要灌输很多的知识或者说是规则。比如画家都是怎么做画的？诗人都是怎么写诗的？小说家是怎么写小说？剧作家怎么写剧本。。等等。

谁还记得“棋盘麦粒”问题吗？一个国王问象棋的发明者想要什么，他说他想要麦粒，多少个呢？就是在第一个格子上放一颗麦粒，第二个格子放两颗麦粒，依次以2倍递增，放满64个格子。国王以为这很少啊。可是经过计算发现2⁶⁴是一个天文数字，整个地球一年都没有这么多的麦粒。这个例子告诉我们2的指数增长是一个可怕的数字。如下图随手用PS画了一个8*8像素大小的图像。

看上去很是不起眼，可就是这么一张随意的图像，确实1/2⁶⁴的概率组织而绘制成的。也就是说这张随机的图像是如此的独一无二。

又比如“我”字，放在8*8棋盘中，是怎样的呢？

如上所示，竟然基本上还可以看出“我”这个字的样子，它跟上面随机画的都是1/2⁶⁴的概率组织而成的。而它确实有意义的，对于人类的大脑而说，它是赋有含义的。而上面的那个则没有。放大来看，这个棋盘文字在PS里是如下面存储的。

它的二值化编码为：00111100111111110111111111111111011100....一个64位的编码。

从中可以看出64格棋盘文字与数字之间的关联。[>>联想：尺度(清晰度)真的重要吗？人脸编码的重要的特征最少有多少个组成？]

由此可见，图像和视频都是十分宝贵的资料。同理，声音文字也是如此。

那么如何像画家一样生成自己想要的图像呢？

答案是把握主要信息，关键信息，先生成主要的框架，再在局部润色。生成关键帧图像之后，再穿插间帧图像即可生成视频。

转载于:https://www.cnblogs.com/2008nmj/p/10016420.html

weixin_30539835

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对“机器视觉”的一点思考

从小孔成像到凸透镜成像，原理其实是一样的，就是光的直线传输，从而在视网膜上成像，并通过神经元传递到大脑，进行进一步的图像处理与分析。如上图所示，物理世界是一个巨大的世界，由无数个原子构成，而视网膜是如此的小，如果要1:1呈现在小小的视网膜上是不现实也是根本不可能的，所以人的视网膜精度是有限的，对于远处的事物如果不走近看根本看不清，如果要1:1呈现现实世界，则需要非常长的焦距，这只有借...
复制链接

扫一扫