最近看了不少的论文,各种算法,SIFT,SURF,SUSAN。。。。。等等,但是在解决仿射不变性,尺度不变性,遮挡等方面总不是特别的完美,于是我就特别的好奇,为什么人可以轻松的对这些进行识别,而计算机就是不行。于是就想到一个故事,达芬奇画鸡蛋,计算机看到的鸡蛋,就和达芬奇画出来的鸡蛋是一样的,不同的视角鸡蛋总是不同的,你要想让计算机认识鸡蛋,即使就是一个鸡蛋,那也有各种角度,不同距离形成的视觉大小变化,还不说鸡蛋就更是每个都不相同,但是这么多鸡蛋,人只要认识一个就能认识所有,这是为什么。既然计算机不可能认识所有 鸡蛋,那就用机器学习吧,慢慢的教,但是看了论文,好像效果也不是很好。人看到的东西都是3D的,包括人的存储,所以当人存储了鸡蛋或者车的模型后,就可以轻松的认识每一个车和鸡蛋了,即使叫不是车的名字,但是还是知道,这是一个车。所以我觉得问题的根源是不是在于人能识别i因为人看到的是3D的,所以很容易在3D的环境中进行匹配识别,而计算机看到的是2D的,想要2D的在3D中进行识别,就会困难一些。所以如果计算机采用双摄像头进行3D图像采样,然后在识别会不会效果会好很多,如果在视频中进行检索,能不能计算机看到一个车的图形后,构建一个车的3D模型,反正车的样子都差不多,然后用这个3D的模型去检索。只是一个想法,不知道对不对,先记录下来,有空测试测试
关于图像检索方面的一些怪想法
最新推荐文章于 2020-12-13 22:54:34 发布