大数据文摘出品
编译:张睿毅、宁静
计算机视觉是一门研究如何对数字图像或视频进行高层语义理解的交叉学科,它赋予机器“看”的智能,需要实现人的大脑中(主要是视觉皮层区)的视觉能力。
想象一下,如果我们想为盲人设计一款导盲产品,盲人过马路时系统摄像机拍到了如下的图像,那么需要完成那些视觉任务呢?
-
图像分类: 为图片中出现的物体目标分类出其所属类别的标签,如画面中的人、楼房、街道、车辆数目等; -
目标检测: 将图片或者视频中感兴趣的目标提取出来,对于导盲系统来说,各类的车辆、行人、交通标识、红绿灯都是需要关注的对象; -
图像语义分割: 将视野中的车辆和道路勾勒出来是必要的,这需要图像语义分割技术做为支撑,勾勒出图像物体中的前景物体的轮廓; -
场景文字识别: 道路名、绿灯倒计时秒数、商店名称等,这些文字对于导盲功能的实现也是至关重要的。
-
R-CNN -
Fast R-CNN -
Faster R-CNN -
Mask R-CNN -
SSD (Single Shot MultiBox Defender) -
YOLO (You Only Look Once)