【开发日记】Deep Speaker 开发日记之Triplet选择

最新推荐文章于 2024-08-09 08:02:01 发布

curisan

最新推荐文章于 2024-08-09 08:02:01 发布

阅读量6.7k

点赞数

分类专栏：开发日记文章标签： deep speaker 声纹识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lauyeed/article/details/79964739

版权

开发日记专栏收录该内容

21 篇文章 1 订阅

订阅专栏

在Deep Speaker中，Triplet三元组的选择是很重要的。如果随机选择，会使收敛速度变慢，如果使用“hard-negative”，会得到次优的结果，也就是说ap和an的相似度一直接近1，如图1所示。因此FaceNet论文中建议使用“semi-hard-negative”，根据我做的实验来看，确实能起到作用，如图2所示，在使用了“semi-hard-negative”之后，an不在接近1，而且ap和an的相似度分离得越来越开（当然，这里还没有收敛，因此ap没有接近1）

图1

图2

这里的“hard-negative”是这样做的：在mini-batch中，保持ap对不变，对每一个ap对，从所有的negative中选择一个，使得an的相似度最高。这样可以使得训练加快收敛，但是会造成次优的结果，参考图1

而“semi-hard-negative”是这样做的：在mini-batch中，保持ap对不变，对每一个ap对，从所有的negative中选择一个，使得an的相似度尽可能高，但是必须小于相应的ap的相似度。这样可以避免an的相似度接近1。从实验的结果上来看，“semi-hard-negative”的效果还是很明显的。

不过deep speaker论文中没有使用“semi-hard-negative”，而是使用softmax和交叉熵进行预训练。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。