『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第69期内容,祝您阅读愉快。
架构
BBR如何让Spotify流媒体更流畅?
本文来自数字音乐服务商Spotify的科技博客,文章阐述了通过BBR为用户提供了更大的下载带宽,BBR是由Google开发的TCP拥塞控制算法,它旨在加快互联网数据传输速度。LiveVideoStack对原文进行了摘译。
Akamai首席架构师Will:WebRTC、QUIC、DASH、AV1都前景可观
William Robert Law是Akamai媒体业务群的首席架构师,自从去年邀请他参加LiveVideoStackCon 2017后,我们就亲切的称他Will。在对他的邮件采访中,他谈到了中美科技工程师的对比,CDN产业对比,架构师的职责,新技术的前景以及从4次创业过程中学到的经验。在LiveVideoStackCon 2018上,Will将会分享刚刚结束的俄罗斯世界杯的支持经历,以及通过CMAF实现海量用户、低延迟直播。
华人的战场——MSU视频编码大赛
从HW265到腾讯香农编码器,从sz264/sz265到UCodec,当然还有金山265,在MSU视频编码评测排名靠前的参赛者大部分来自本土公司或华人工程师的贡献。LiveVideoStack试图通过一系列采访,解读这一全球知名的视频Codec评测。本文是系列文章的第一篇。
Bitmovin: 视频开发者报告 2018
今年的视频开发者报告(Video Developer Report)在发布前总共收到了来自6大洲67个国家的456份调研问卷。该报告旨在对当前工业界使用的视频技术进行较为全面的梳理,并对下一年的行业发展趋势做出大致的预测。本文对该报告中的关键内容进行了整理。
Get a head start with QUIC
In this blog post, we will show you how you can unlock the cloudflare-quic.com achievement and be some of the first people in the world to perform a HTTP transaction over the global internet using QUIC. This will be a moment that you can tell your grandkids about - if they can stop laughing at your stories of cars with wheels and use of antiquated words like: “meme” and “phone”.
从零开始仿写一个抖音App——日志和埋点以及后端初步架构
日志在一个项目中起着非常重要的辅助作用,它可以让开发人员方便的定位 bug。它可以在系统上线之后让后台监控 app 的性能以及稳定性。他还可以收集用户的行为数据以方便对用户的需求进行分析。在这一节中我会分析5种不同的日志,并讲解其中几种日志的实现方式。
Enhancing the Netflix UI Experience with HDR
We’re excited to roll out experimental HDR images for the very first time to the Netflix app on the latest generation of game consoles. These are images that take advantage of a display’s HDR capabilities (just like HDR video) and not to be confused with HDR photos that your phone or camera might take by combining multiple exposures to generate a high-contrast scene.
朱晔的互联网架构实践心得S1E7:三十种架构设计模式(上)
设计模式是前人通过大量的实践总结出来的一些经验总结和最佳实践。在经过多年的软件开发实践之后,回过头来去看23种设计模式你会发现很多平时写代码的套路和OO的套路和设计模式里总结的类似,这也说明了你悟到的东西和别人悟到的一样,经过大量实践总能趋向性得出一些最佳实践的结论。
分布式 TensorFlow:Distribution Strategy API 丨Google 开发者大会 2018
2018 年 9 月 21 日 周玥枫(Google Brain 软件工程师)带来一场《分布式 TensorFlow:Distribution Strategy API》的演讲,本文将对演讲做一个回顾。
音频/视频技术
基于TCP的0.8s超低延时、150kb/s超弱网络、低卡顿稳定直播框架
本文介绍了一个在直播质量上大幅超过各大平台的直播框架,在低延时方面甚至超过普通的WebRTC+RTMP。在CPU效率和响应速度上也是屈指可数的。基于跨平台开发思想,目前只完成了iOS部分,后续完成所有之后考虑开源,在这之前欢迎测试。
EasyDarwin RTSPRequest请求相关代码分析
在之前的博文中提到了RTSPSession中建立RTSPRequest和RTPSession以完成进一步的视频流构建,本文主要分析其中RTSPRequest请求的相关代码。RTSPRequest作为RTSP请求保存视频流请求信息如请求方法,开始时间,结束时间,播放速度,传输方式等。
MediaPlayer 播放音频与视频
Android 多媒体中的——MediaPlayer 可以用来播放音频和视频,是 Androd 多媒体框架中的一个重要组件,通过该类,可以以最小的步骤来获取,解码 和播放音视频。
使用 MediaExtractor 和 MediaMuxer API 解析和封装 mp4 文件
一个音视频文件是由音频和视频组成的,我们可以通过MediaExtractor、MediaMuxer把音频或视频给单独抽取出来,抽取出来的音频和视频能单独播放。
编解码
iOS系统中H264硬解码及显示详解
苹果在iOS 8.0系统之前,没有开放系统的硬件编码解码功能,不过Mac OS系统一直有,被称为VideoToolBox的框架来处理硬件的编码和解码,终于在iOS 8.0后,苹果将该框架引入iOS系统。
理解低延迟视频编码的正确姿势
在视频世界中,延迟是获取视频帧的瞬间与该帧显示的瞬间之间的时间量。低延迟是任何与视频内容实时交互的系统的设计目标,例如视频会议或无人机驾驶。但是“低延迟”的含义可能会有所不同,实现低延迟的方法也并不相同。本文将定义和解释视频延迟的基础知识,并讨论如何正确选择对延迟影响最大的视频编码技术。
HEVC 帧内预测
帧内预测使用TU块。利用当前图片已经编码的像素进行预测。帧内预测可用块大小为帧内预测分成35种预测模式,其中33种角度预测(2-34),Planar预测(0)和DC预测(1)。支持块大小从4x4到64x64。
OpenMAX数据流传递规则
在利用 OpenMax 编写的程序框架中,就不可避免地会涉及到数据流的传递,因为这个框架就是为了数据流传递而服务的。在音视频数据包的传递过程中需要遵循某种约束,比如数据包处理时间不能超过帧间隔等等。本文就讨论一下在数据流传递过程中的一些约束性规则,主要就是时间约束规则。
ARM Linux平台下FFmpeg的移植
一个视频直播的项目,需要使用嵌入式Linux设备作为一个推流端,所以使用FFmpeg实现推流功能。libx264是一个自由的H.264编码库,是x264项目的一部分,使用广泛,FFmpeg的H.264实现就是用的libx264。FFmpeg 中带有264的解码,没有编码,需要添加x264。
AI智能
浅谈动作识别TSN, TRN, ECO
动作识别表面是简单的分类问题,但从本质上来说,是视频理解问题,很多因素都会影响其中,比如不同类型视频中空间时间信息权重不同?视频长短不一致?视频中动作持续的起始终止时间差异很大?视频对应的语义标签是否模糊?本文主要对比 video-level 动作识别的经典方法TSN,及其拓展变形版本的TRN和ECO。
为什么 AI 芯片时代必然到来——从TPU开始的几十倍性能之旅
摩尔定律的终结将使服务于特定领域的架构成为计算的未来。一个开创性的例子就是谷歌在 2015 年推出的张量处理单元(TPU),目前已经在为超过十亿人提供服务。TPU 使深度神经网络(DNN)的计算速度提高了 15-30 倍,能耗效率比类似技术下的当代 CPU 和 GPU 高出了 30-80 倍。
伯克利最新研究:如何用目标图像进行机器视觉强化学习?
深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策。今天,来自 Berkeley 的两位大佬给我们介绍了用想象的目标进行视觉强化学习,让我们来看看有什么新颖之处。
目标检测架构5年演进全盘点:从R-CNN到RFBNet
目标检测是计算机视觉领域的基本且重要的问题之一,而「一般目标检测」则更注重检测种类广泛的自然事物类别。近日,中国国防科技大学、芬兰奥卢大学、澳大利亚悉尼大学、香港中文大学、加拿大滑铁卢大学的研究者在 arXiv 发布了一篇综述论文,对用于一般目标检测的深度学习技术进行了全面系统的总结。
快手 AI 技术副总裁郑文:快手在内容生产&内容理解上用到的 AI 技术
郑文,清华大学软件学院 2001 级校友,斯坦福大学计算机系博士,曾在硅谷多家知名大公司、创业企业从事计算机图形学、计算机视觉、深度学习等方向的研究,现任快手 AI 技术副总裁,带领快手在 AI、AR、CV、CG 等方向的前沿研究。
图像
iOS 图像渲染原理
通过 图形渲染原理 一文,大致能够了解图形渲染过程中硬件相关的原理。本文将进一步介绍 iOS 开发过程中图形渲染原理。
图像处理之空间滤波
空间滤波是指:邻域中心从一个像素向另一个像素移动,对邻域中的像素应用算子T,并在该位置(领域中心)产生输出。典型地,该处理从输入图像的左上角开始,以水平扫描的方式逐像素处理。当该邻域的中心位于图像的边界上时部分邻域将位于图像外部,此时,用T做计算时可以忽略外侧邻点,或者用0或其他指定的灰度值填充图像的边缘。