Looking to Listen at the Cocktail Party 代码详解
这个是清华某位大佬对论文《Looking to Listen at the Cocktail Party 》的一个复现。代码链接
网络结构如下图:
由于AVSpeech这个数据集里是一些视频的片段,而输入网络的是视频中的人脸区域。所以先要做人脸识别,并把人脸截取。
这个代码中使用了Python的一个pretrained的mtcnn的包直接做的。
def face_detect(file,dete...
原创
2020-03-16 08:43:58 ·
980 阅读 ·
0 评论