从百度识图效果对智能识图的一些思考

最新推荐文章于 2022-04-14 09:04:53 发布

dalerkd

最新推荐文章于 2022-04-14 09:04:53 发布

阅读量2.9k

点赞数

分类专栏：有趣-好玩畅想文章标签：百度识图机械视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dalerkd/article/details/43882573

版权

有趣-好玩同时被 2 个专栏收录

54 篇文章

订阅专栏

27 篇文章

订阅专栏

本文探讨了百度识图技术在识别复杂图像时的局限性和改进策略，通过对比人眼识别过程，提出了从像素到材质、形状、相对关系的多层理解方法。案例分析忆阻器芯片图像识别失败的原因，并提出通过层次化信息提取实现更精准识别的路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我尝试让百度识图识别一张图片，它是一种芯片的图片来自于忆阻器，但得到了如下的结果：
百度识图结果
它将我的图片联想到二维码。

这已经不错，但是还说不上“好“。让我们想想看，它尝试找出它的线条分布规律，发现竖条的分布非常明显，显然这是对于它而已，如果这幅图片是个谜题的话，我们的度娘完成的相当的棒。但是事实不是这样的。

现在我们来想像一下我们的人眼是如何完成这幅超级复杂图片的识别的：即使我们从未见过这种东西，我们也会说出：”数个类似于芯片的东西嵌在透明板上，他们排成一排。“因为我们不仅拥有类似的经验，我们还拥有从现有图片提取出方便匹配经验的能力。

进化造成了这一切，所以这一定很实用。总结一下该过程：

人眼对物体结构的兴趣点以及色彩
立体视觉还原
随着兴趣浓度阶梯进行区域的特征物检测。

详细来看
1. 通过对图像的二维结构的识别划分出兴趣梯度，色彩显然会影响这种梯度的划分
2. 尝试还原立体视觉，人已经有了这种经验，”这是一个物体在某个角度时候的样子“
3. 对不同兴趣梯度进行文字符号检测，在这幅图中我们可以看到黄色平坦区域有DRAM字样，中心红色平坦区域有SOC字样以及忆阻器的图标。
原图地址：http://www.hpl.hp.com/assets/images/global/research/systems-research/the-machine-hero-bg.jpg

其实这个识别问题很难只是基于像素去思考而又想得绝佳的效果，就像有人说的那样：”一切计算机问题都可以通过增加一个层来解决“从像素级别来考虑宏观问题对此很难有所助益。我们尝试将图中的像素信息转换为一种中间层信息，譬如：材质，形状，相对位置。从中提取规则使关于此的一切变得不再纠结。
过程如下：
1. 从像素中理解材质和形状；
2. 从上一层得出相对关系，得出兴趣区域；
3. 从上一层的兴趣区域按需做进一步的处理。

新年快乐。
2015年2月19日 13:40:55

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。