AI周报丨快手团队长文解读：基于FPGA加速的自动语音识别在大规模直播和短视频场景的应用

最新推荐文章于 2023-05-15 09:25:52 发布

极链AI云

最新推荐文章于 2023-05-15 09:25:52 发布

阅读量2.9k

点赞数

分类专栏： AI周报文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/m0_60673947/article/details/121291250

版权

快手团队采用FPGA硬件加速技术优化自动语音识别（ASR），针对TDNN+LSTM声学模型实现延迟降低37.67%，并发路数提升7.5倍。通过算法优化、定点化模型压缩和FPGA设计，实现了在直播和短视频场景的高效应用。

摘要由CSDN通过智能技术生成

AI周报

- 热门论文 -

题目：On Training Implicit Models

本文主要研究无限层隐式模型的训练问题。具体地说，以前的工作采用隐式微分，并为反向传播计算精确的梯度。然而，是否有必要为训练计算这样一个精确但昂贵的梯度？在这项工作中，我们提出了一种新的隐式模型梯度估计，称为幻影梯度，它1）放弃了精确梯度的昂贵计算；2）提供了一个经验上优于隐式模型训练的更新方向。我们从理论上分析了可以找到损失景观上升方向的条件，并提供了基于阻尼展开和Neumann级数的幻影梯度的两个具体实例。在大规模任务上的实验表明，这些轻量级幻影梯度显著地将隐式模型训练中的向后传递速度提高了约1.7倍，甚至比基于ImageNet上精确梯度的方法的性能更高。

- 热门工具 -

1. PyTorch Geometric

PyTorch Geometric是基于PyTorch的一个图深度学习的拓展库，PyG中包含了很多图网络中常用的一些数据集，其中Planetoid数据集包括Cora，Citeseer，Pubmed，还包括了一些常用于图分类的数据集。

https://pytorch-geometric.readthedocs.io/en /latest/notes/graphgym.html

2. LIT

语言解释性工具（LIT），一个开源平台，用于对NLP模型的visualiza-tion和理解，分析和违反基于浏览器的界面，以实现快速探索和错误分析。包括对多种工作流程的案例研究，探索对核心系统中的情绪分析等。

https://github.com/pair-code/lit

- 大厂动态 -

快手团队长文解读：基于FPGA加速的自动语音识别在大规模直播和短视频场景的应用

典型的实时流式自动语音识别业务如语音搜索、语音输入等和用户操作相关，直接影响用户体验，最重要的性能指标是延迟，其次是并发路数。TDNN+LSTM 作为一种主流的实时流式声学模型，可以实现低延迟、高并发。本文介绍了快手异构计算与 MMU 音频中心合作的针对 TDNN+LSTM 声学模型的全定点推理硬件加速方案。该方案基于 FPGA，在流式 ASR 服务场景下, 高峰期平均延时减小 37.67 %，并发路数提升 7.5 倍，是 FPGA 在国内大规模数据中心语音场景落地的成功案例之一。

ASR(Automatic Speech Recognition）是自动语音识别技术。ASR 在快手有许多的应用场景，是快手 APP，直播，风控，游戏等众多业务的核心功能，不同服务场景的 ASR 技术指标需求有很大的差别。快手语音识别基本可分为如下:

低延迟、实时流式 ASR：如快手 APP 语音搜索、直播间语音输入法、小快机器人、语音魔法表情、一甜相机实时字幕等；

高精度、高并发、离线 ASR：如直播语音转写、聊天室语音转写、直播连麦 PK、短视频语音转写等。

实时流式业务和用户操作相关，直接影响用户体验，最重要的性能指标是延迟，其次是并发路数。实时流式ASR业务性能优化是本文介绍的目标。

背景

人工智能AI是快手短视频和直播平台的重要使能技术，同时也代表着公司的核心竞争力。当前快手AI基础设施高度依赖INTEL CPU 和NVIDIA GPU这两种通用计算硬件。受业务快速增长的驱动，快手近几年投入了大量人力和资金来扩展AI软硬件基础设施, 也积极地寻找更好的异构计算加速方案，以实现更好的用