神经网络可以通过输出图片上特征点的(x,y)坐标来实现对目标特征的识别。
假设你正在构建一个人脸识别应用,出于某种原因,你希望算法可以给出眼角的具体位置。眼角坐标为(x,y),你可以让神经网络的最后一层多输出两个数字lx和ly,作为眼角的坐标值。如果你想知道两只眼睛的四个眼角的具体位置,那么从左到右,依次用四个特征点来表示这四个眼角。对神经网络稍作一些修改,输出第一个特征点(l1x,l1y),第二个特征点(l2x,l2y)依此类推,这四个脸部特征的位置就可以通过神经网络输出。还可以通过嘴的坐标来确定嘴的形状从而判断人物是在微笑还是皱眉。我们以此来引申出如何通过卷积网络进行对象目标检测(基于滑动窗口的目标检测算法)。