本技术周刊是以周为单位作为里程碑,记录一个程序员视角下的所见,所学,所想。兴趣领域包括:数学,算法,图形,图像,音视频,AI,游戏,软件开发技术,操作系统,开源,以及生活杂记等。“不积跬步,无以至千里;不积小流,无以成江海。”希望与君共勉。
数学
本周继续学习MIT18.01单变量微积分课程:
MIT 18.01 Single Variable Calculus(单变量微积分)课堂笔记【4】——求导法则,隐函数微分和反函数求导
算法
一道数学题的题解,推导出公式之后,实现就很简单了:
POJ-2663:Tri Tiling
计算机视觉
精读了一篇比较火的基于AI的视频插帧论文RIFE。这篇论文出自旷视科技团队,推理速度超快,质量也很好:
RIFE: Real-Time Intermediate Flow Estimation for Video Frame Interpolation——精读笔记
图形学
这周NVIDIA GTC在线上召开。11月9日,NVIDIA创始人黄仁勋在主题演讲中展示了众多最新的应用于各行业的应用。其中,我对那个黄仁勋的虚拟卡通数字化身的演示最感兴趣。https://www.youtube.com/watch?v=U9Zh57dGsH4
在这段演示中,虚拟化身在一个基于光线追踪技术渲染的三维场景中,分别和三个真人进行了实时对话,回答了三个不同领域里的问题。提问之后,大概有两秒左右的延迟,然后虚拟人会做出回答,同时伴随有肢体动作。这段演示可谓集成了NVIDIA在众多领域里的最新技术。涉及的领域包括:语言识别,计算机视觉,自然语言理解,推荐引擎,面部动画和三维渲染等。
这套系统由Omniverse Avatar打造。Omniverse Avatar 是 NVIDIA Omniverse的一部分,它集成了多种技术:
- 语言识别技术是基于NVIDIA Riva。NVIDIA Riva是一个支持跨多种语言的语音识别SDK。Riva还具有通过文本转语音技术生成类人语音的能力。
- 自然语言理解是基于 Megatron 530B。Megatron 530B是一个很大的预训练的模型,可以理解并回答多个领域的问题,甚至是没有训练过的领域。
- 推荐引擎由NVIDIA Merlin提供。NVIDIA Merlin是一套用于打造大规模数据的基于深度学习的推荐系统框架。
- 感知能力是基于NVIDIA Metropolis。NVIDIA Metropolis是用于视频分析的计算机视觉框架。
- 虚拟人的动画是基于NVIDIA Video2Face and Audio2Face。Audio2Face可以通过一段语音生成面部表情动画,甚至让动物说人话,是不是只要是一张脸就能让它说话-_-||。看了下配置要求,至少是RTX系列的显卡,推荐RTX 3070以上。
音视频
推荐几篇LiveVideoStack翻译的音视频相关比较基础的文章,写的通俗易懂。原始文章出自OTTVerse,上面有很多音视频相关的很干货的技术文章。
- 如何给5岁孩子解释DCT?。DCT(离散余弦变换)是现代图像和视频压缩最基本的工具。它将图像中的数据转换到频域,这样做是为了揭示像素中所包含的信息。本文将以一种通俗易懂的方式解释DCT。
- Easy Tech:什么是I帧、P帧和B帧?。I帧、P帧和B帧(I-frames、P-frames and B-frames)的概念是视频压缩领域的基础。这三种帧类型在特定情况下用于提高编解码器的压缩效率、压缩流的视频质量,以及使得流去应对传输和存储时候的错误和故障。
- 视频编码完全指南。视频编码是一门在减少视频数据体积大小或码率的同时而不对其质量产生不良影响(在人类的视觉感知下)的科学。对视频进行编码从而减少其数据体积同时保持视频质量是一项综合了艺术和科学的技术。在本篇文章中,我们将介绍这个复杂且神奇的领域对视频流和视频传输产生的巨大影响。
- 为什么视频压缩如此重要。视频压缩是视频生产中最重要的组成部分之一。对高质量声影效果(以吸引更多观看者)的需求常常被有限的带宽所阻碍,这是YouTube、Facebook和Vimeo等流媒体服务常常面临的问题。本篇文章将通过一个实际练习来解释视频压缩的重要性。
- 如何给小白解释什么是编解码器。在本篇文章中,我们将学习视频编解码器、视频编码标准以及在数据压缩和解压缩的过程中,视频编码标准是如何发挥作用的。