https://blog.csdn.net/gulingfengze/article/details/79690465 这篇文章写的挺仔细了,不过我倾向于第二种方式的视频目标识别,第一种没有实时性,体验感差