音视频技术开发周刊

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/117408220

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

小提示：链接跳转仅支持公众号相关链接

稳健、可靠全真即时通信网的架构与应用
支撑全真互联网的基础网络包括实时音视频通信网络、即时通信网络和流媒体分发网络。随着社会的进步，人们对低延时即时通信的需求越来越高。本次LiveVideoStackCon 2021上海站大会邀请到了负责腾讯云千亿级底层通信网络的刘然，他为我们分享了稳健、可靠的全真即时通信网的架构与应用实践。

如何利用 AWS WebSocket API 进行无服务器 Serverless WebRTC 信令
在本文中，Edward展示了他们如何利用无服务器架构来设置其WebRTC信号。他们使用AWS的API网关WebSocket API终止WebSocket并调用AWS无服务器Lambda函数。

https://webrtchacks.com/leverage-aws-websocket-api-for-webrtc-signaling/

详解 WebRTC 高音质低延时的背后 — AGC（自动增益控制）
本文将结合实例全面解析 WebRTC AGC 的基本框架，一起探索其基本原理、模式的差异、存在的问题以及优化方向。

MPEG-DASH视频流——完全指南
MPEG-DASH是最流行的视频流协议之一，被广泛用于通过视频点播或直播来把媒体分发到各种终端用户设备，包括智能手机、平板电脑、智能电视、游戏机等等。这篇文章将介绍MPEG-DASH的基本原理、它的历史、最重要的特点等等。

网易云信视频引擎技术
视频引擎的应用场景多为需要低延迟的实时通讯场景，比如视频会议和娱乐直播。本次分享我们邀请到了网易云信的工程师韩庆瑞老师，为我们分享网易云信视频引擎技术的特点和落地方案。

通过透视式显示设备和光学设备进行视觉增强
本文来自OSA的Imaging and Applied Optics Congress 2020，讲者是来自东京工业大学的助理教授Yuta Itoh，演讲主题是关于通过透视式显示设备和光学设备进行视觉增强。

喜马拉雅：基于 WeNet 和 gRPC 的语音识别微服务架构的设计和应用
近日，喜马拉雅语音团队在wenet中增加了基于gRPC的流式语音识别的支持。本文由喜马拉雅语音团队撰写，介绍wenet中的gRPC的设计和实现，并介绍喜马拉雅基于wenet和gRPC的语音识别微服务架构的设计和应用。

Vonage 提高了现场互动的视频质量
回想我们一年前的状况真是不可思议。COVID-19挑战了我们，改变了我们的工作，生活和彼此联系的方式。视频通信爆炸式增长以帮助我们适应新的生活方式—去年2月至4月之间，Vonage视频平台上的视频分钟数增加了707％，而视频总分钟数仍然很高，2020年7月的使用率比2020年2月的使用率达到501％。

https://www.vonage.com/about-us/vonage-stories/video-quality-webrtc-live-interactions-post-covid1/

如果让AI根据文字画「抽象画」，那得成什么样？｜DeepMind新算法

根据文字生成图片，AI早就会了。而如今，和以往的“写实派”不同，AI要开始进军“抽象派”艺术了！

这些行业，将率先落地AI芯片
广义上，所有面向AI应用的芯片都可以称为AI芯片。目前一般认为是针对AI算法做了特殊加速设计的芯片。现阶段，这些人工智能算法一般以深度学习算法为主，也可以包括其他浅层机器学习算法。

性能优化：SRS为何能做到同类的三倍
性能无疑是服务器的核心能力，几乎每个开源服务器的介绍都是”高性能XXX服务器“。视频服务器由于业务的超复杂度，特别是WebRTC服务器，要做到高性能是非常有挑战的难点。

Google新作 | 详细解读 Transformer那些有趣的特性（建议全文背诵）
本文发现了Transformer的一些重要特性，如Transformer对严重的遮挡，扰动和域偏移具有很高的鲁棒性、与CNN相比，ViT更符合人类视觉系统，泛化性更强，等等…代码即将开源！

实操教程｜使用图像分割来做缺陷检测的一个例子
什么是物体检测？给定一张图像，我们人类可以识别图像中的物体。例如，我们可以检测图像中是否有汽车，树木，人等。如果我们可以分析图像并检测物体，我们可以教机器做同样的事情吗?答案是肯定的。随着深度学习和计算机视觉的兴起，我们可以实现目标检测的自动化。

微软MR设计师：如何用视觉模拟弥补AR交互缺乏的体感反馈？
近期，为了进一步优化AR虚实融合的效果，微软MR设计师Oscar Salandin开发了一种逼真的物理模拟AR demo。据悉，该应用基于物理交互模拟和AR，乍一看只是一个可以自由交互的AR立方体，但它的独特之处在于，可通过基于视觉的反馈来增强AR的逼真感，尽管没有体感反馈，也能给体验者带来足够虚实结合的感受。

综述：基于点云的自动驾驶3D目标检测和分类方法

本文基于现有的自动驾驶中利用3D点云数据进行目标检测的文献,从数据特征提取和目标检测模型等方面对不同技术进行比较。

无人驾驶“解救”矿山之困

当社会还在热议老龄化社会可能带来的变化时，一些行业已经为这个问题焦头烂额了许久。作为矿山智能化体系中重要组成部分的无人驾驶，得益于此前多年的技术积累，更容易快速落地，形成智慧矿山的标杆项目。

调查报告：全美成年人中有23%用过VR，Quest使用率占总体24%
自2012到2014年掀起一波VR风口，至今已经过去7年以上的时间。随着前几年VR一体机诞生，VR硬件和内容市场得到了肉眼可见的发展和推动。那么时至今日，已经有多少人用上了VR？VR在普通消费群体的渗透率到底有多少？又有哪些难点阻止更多人接受VR呢？为了解答上述问题，Thrive Analytics和ARtillery Intelligence合作发布全新的VR用户行为调查报告，报告中对4.6万美国成年人进行调查，结果发现……

广播IP转型报告：2021年广播公司面临的最大挑战
在第一份关于IP和云应用状况的报告中，当Haivision在2019年着手调查广播公司时，我们很好奇是什么让业内人士夜不能寐，并要求受访者按重要性排序他们的答案。我们想深入挖掘，真正了解我们的广播客户面临的最大挑战和障碍是什么。去年底，当我们第二次进行这项调查时，我们问了同样的问题，看看这些挑战有什么变化。

活动推荐

# 火山引擎 “全擎而进” 品牌发布会

2021年6月10日，火山引擎“全擎而进”品牌发布会将在北京举行，首次对外展示企业服务产品和行业增长案例，揭秘字节跳动 9 年增长背后的技术原力，这也是火山引擎自去年对外服务以来的首个对外大会。整场活动以线下参会、线上直播两种方式进行。线下展区则被打造成了“增长引擎舱”，为来宾提供沉浸式商业体验，更有代入感地体验火山引擎产品技术带来的增长成效。

https://www.livevideostack.cn/news/tech-for-growth-0610/