Looking to Listen at the Cocktail Party 代码详解
这个是清华某位大佬对论文《Looking to Listen at the Cocktail Party 》的一个复现。代码链接网络结构如下图:由于AVSpeech这个数据集里是一些视频的片段,而输入网络的是视频中的人脸区域。所以先要做人脸识别,并把人脸截取。这个代码中使用了Python的一个pretrained的mtcnn的包直接做的。def face_detect(file,dete...
原创
2020-03-16 08:43:58 ·
965 阅读 ·
0 评论