音视频技术开发周刊 | 193

最新推荐文章于 2024-09-19 15:53:35 发布

LiveVideoStack_

最新推荐文章于 2024-09-19 15:53:35 发布

阅读量742

点赞数

文章标签：大数据编程语言人工智能机器学习 java

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/116358592

版权

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

小提示：链接跳转仅支持公众号相关链接

体验共享——技术实现瓶颈与突破

虽然音视频技术日趋成熟，但是不同场景对音视频的需求有不同侧重。为了将体验做到极致，音视频技术平台也面临着很大的挑战。我们邀请到了即构科技邱国钦老师，为大家介绍多媒体场景中新的体验场景面临的挑战，以及该如何应对这些挑战。

美摄智能视频生产平台

美摄科技为企业提供视频编辑SDK、短视频SDK服务,支持开发者快速集成包括视频录制/视频编辑/视频美颜/人脸识别/动态贴纸/特效滤镜,支持iOS/Android视频编辑SDK功能。今天我们有请到美摄科技的李磊老师和我们分享一些思考一些实践以及现有的方案。

流媒体的未来——视频技术如何演变

本次LiveVideoStackCon 2021上海站我们邀请到了Akamai纪永康分享播放器、格式和容器编解码和视频内容准备，网络协议和数据传输，互联网流量增长趋势。

LibAOM与AV1的最新研发进展

本次分享我们邀请到了来自Google Open Codec Team的韩敬宁博士，他向我们分享了AV1解码器的覆盖，AV1编码器性能的提升包括AV1压缩性能的提升和运算复杂度的降低，AV1实时编码器的应用和基于AV1的图像编码器格式AVIF的最新研究进展。

建立优化的端到端视频工作流所需的一切

通过互联网或OTT（OTT）传送的电影和电视内容的增加自然就意味着市场上OTT服务的增加。如果您提供流媒体之类的视频服务，那么您就知道将视频分发到设备，管理数据以及收集有关观众行为的分析的过程可能是复杂，耗时的，有时甚至是不堪重负的。因此，让我们谈谈如何将所有流程简化为优化的视频工作流程吧。

https://bitmovin.com/optimized-end-to-end-video-workflow/

实时视频质量控制

实时流媒体一直是迪士尼流媒体服务（DSS）视频技术的一个组成部分。DSS拥有多个团队，其主要职能是尽可能保持最高的视频质量，并确保内容传输技术24/7正常工作。

Simon Says：使视频编辑像文本编辑一样简单

本次内容来自DEMUXED,演讲者是Simon Says的首席技术官Roderick Hodgson Roderick 向我们介绍了一种工具：simon says组件，以及其中的一些技术挑战。

探讨TensorRT加速AI模型的简易方案 — 以图像超分为例

本次LiveVideoStack线上分享邀请到了英伟达DevTech团队技术负责人季光一起探讨把模型运行到TensorRT的简易方法，帮助GPU编程的初学者加速自己的AI模型。

2021年如何在不使用Wifi或以太网的情况下进行远程直播

在本文中，我们将介绍当Wifi和以太网不可用时如何远程直播数据流。我们将首先回顾一些可能影响网络可用性的情况。考虑到这一点，我们将研究一些与网络绑定有关的可能解决方案，这些解决方案使远程实时流媒体变得更实惠且更简单。

https://www.dacast.com/blog/streaming-live-remote/

阿里云 RTC QoS 弱网对抗之 LTR 及其硬件解码支持

LTR 弱网对抗由于需要解码器的反馈，因此用硬件解码器实现时需要做一些特殊处理。另外，一些硬件解码器对 LTR 的实现不是特别完善，会导致出现解码错误。本文为 QoS 弱网优化系列的第三篇，将为您详解阿里云 RTC QoS 策略中的 LTR 抗弱网原理与实现硬解 LTR 时遇到的坑及其相应解法。

FFmpeg 音视频开发 20 年

从2007年之前，到2008-2017年，再到2017之后，作者chenchao_shenzhen以时间为轴讲述了FFmpeg历经20年的发展进程以及未来趋势。

https://blog.csdn.net/chenchao_shenzhen/article/details/111532282

我们不必等到2027年才能从AV1中受益

我们生活在一个拥有强大处理能力的地方，为改善视频体验提供了很多机会。软件解码是可能的，并且有一些解决方案可以通过今年（而不是几年）提供高质量的优质服务来增强AV1的潜力，使其变得可行。

https://www.streamingmediablog.com/2021/04/av1-timeline.html

Lyra，Satin 和 WebRTC 中语音编解码器的未来

新的音频编解码器：Google Lyra和Microsoft Satin。两家公司都采取基于AI的语音编码，并且都将争取将其纳入WebRTC。

https://bloggeek.me/lyra-satin-webrtc-voice-codecs/

像人一样自然流畅地说话，下一代智能对话系统还有多长的路要走？

对话系统在最近几年发展非常迅速，特别在 NLP 顶会上的论文数量逐步增多。如果说，自然语言处理是 AI 皇冠上的明珠，那么对话系统就是「NLP 皇冠上的明珠」，并且以苹果 Siri 等为代表的的任务型对话和以微软小冰为代表的非任务型（聊天型）对话尤为受到学界和业界关注。

AI 发展方向大争论：混合AI ？强化学习？将实际知识和常识整合到AI中？

对于AI界来说意义重大，这归功于深度学习领域取得了惊人的进步，AI的这个分支因收集、存储和处理大量数据的能力不断增强而变得切实可行。如今，深度学习不仅是一个科学研究课题，还是许多日常应用系统的一个关键组成部分。

带有包围式曝光功能的HDR+改善手机图像质量

我们正在通过常规更新（例如最近对Camera应用程序的V8.2更新）不断努力改进Pixel，使它更有用，更强大，更有趣。其中一项改进（于10月在Pixel 5和Pixel 4a 5G上推出）是一项功能，该功能“在幕后”运行，带包围曝光的HDR +。此功能通过合并以不同曝光时间拍摄的图像来改善图像质量（特别是在阴影中），从而产生更自然的色彩，改善的细节和纹理并减少噪点。

https://ai.googleblog.com/2021/04/hdr-with-bracketing-on-pixel-phones.html

在目标检测中如何解决小目标的问题？

在深度学习目标检测中，特别是人脸检测中，由于分辨率低、图像模糊、信息少、噪声多，小目标和小人脸的检测一直是一个实用和常见的难点问题。然而，在过去几年的发展中，也出现了一些提高小目标检测性能的解决方案。本文将对这些方法进行分析、整理和总结。

Vulkan Video实现GPU加速视频编码/解码

Vulkan是一套跨平台的图形API，由Khronos组织牵头进行制定，普遍被看作是OpenGL的后继者，目前版本已经来到1.2.175，仍然在不停地进行更新，其在非Windows平台上面已经逐渐变成了首选使用的图形API。在未来，Vulkan甚至会提供模拟DirectX等其他图形API的功能，有很大的发展前景。

Facebook计划通过一套新的音频产品来追赶Clubhouse和Podcast

关于Facebook下一步的音频计划。

https://www.vox.com/recode/2021/4/18/22390742/facebook-podcasts-clubhouse-audio-launch-spotify-zuckerberg-apple

AMD Link更新支持在电脑上运行从一个PC串流到另一个

AMD正在为其Radeon Adrenaline软件套装推出一个大更新，将改进远程游戏和一些辅助设置。这个套装是Radeon显卡自带的，可以让游戏玩家最大化利用他们的硬件。

https://www.cnbeta.com/articles/tech/1119795.htm

讲师招募 LiveVideoStackCon 2021 北京站

LiveVideoStackCon 2021 北京站（9月3-4日）正在面向社会公开招募讲师，欢迎通过 speaker@livevideostack.com 提交个人及议题资料，无论你的公司大小，title高低，老鸟还是菜鸟，只要你的内容对技术人有帮助，其他都是次要的，我们将会在24小时内给予反馈。

插图源自creativeboom.com