SUPERBIN技术周刊第8期

最新推荐文章于 2022-01-16 15:09:30 发布

superbin

最新推荐文章于 2022-01-16 15:09:30 发布

阅读量357

点赞数

分类专栏： SUPERBIN技术周刊文章标签： DirectML 音视频架构 Stylevision 视觉目标跟踪 AR头显

本文链接：https://blog.csdn.net/superbinlovemiaomi/article/details/121725388

版权

SUPERBIN技术周刊专栏收录该内容

11 篇文章 1 订阅

订阅专栏

本技术周刊是以周为单位作为里程碑，记录一个程序员视角下的所见，所学，所想。兴趣领域包括：数学，算法，图形，图像，音视频，AI，游戏，软件开发技术，操作系统，开源，以及生活杂记等。“不积跬步，无以至千里；不积小流，无以成江海。”希望与君共勉。

1. AI

1.1 初识DirectML

https://shi-tech.blog.csdn.net/article/details/121722792

DirectML是微软发布的一套基于DirectX12的机器学习底层推理API。本文对DirectML做了初步介绍，它的优点来源。和其他推理引擎WinML、ONNXRuntime、TensorRT也做了比较。

1.2 DirectML 1.8 版本更新内容

https://github.com/microsoft/DirectML/blob/master/Releases.md

增加DML_FEATURE_LEVEL_5_0
- 加入四个新操作：
  - DML_OPERATOR_ELEMENT_WISE_CLIP1
  - DML_OPERATOR_ELEMENT_WISE_CLIP_GRAD1
  - DML_OPERATOR_PADDING1
  - DML_OPERATOR_ELEMENT_WISE_NEGATE
- 下列操作增加了对64位数据类型的支持：
  
  CLIP, CLIP_GRAD, CUMULATIVE_SUMMATION, CUMULATIVE_PRODUCT, ELEMENT_WISE_MAX, ELEMENT_WISE_MIN, REDUCE+REDUCE_FUNCTION_MAX, REDUCE+REDUCE_FUNCTION_MAX, REDUCE+REDUCE_FUNCTION_SUM, REDUCE+REDUCE_FUNCTION_MULTIPLY, REDUCE+REDUCE_FUNCTION_SUM_SQUARE, REDUCE+REDUCE_FUNCTION_L1, PADDING, SPACE_TO_DEPTH, DEPTH_TO_SPACE, TOP_K, ELEMENT_WISE_NEGATE, ELEMENT_WISE_IF, MAX_POOLING, MAX_UNPOOLING, FILL_VALUE_SEQUENCE, REVERSE_SUBSEQUENCES, ROI_ALIGN BatchIndicesTensor
一些Bug修复。

2. 音视频

2.1 视频大时代下基础架构的演进

https://mp.weixin.qq.com/s/0MeJKITaHWsyMapG1jlXTQ

在这里插入图片描述

这篇文章是LiveVideoStackCon 2021音视频技术大会北京站，来自快手短视频架构负责人黄琦的演讲。本文讲解了随着快手业务量的不断增加，为了适应业务需求，底层音视频架构也经历了多个版本的迭代。比如为了应对在业务代码中升级FFmpeg版本或转码逻辑，就需要连同业务逻辑一起调整，非常影响迭代速度的挑战。把底层技术工具封装成独立服务，并且用配置去管理每个服务的调度方式。也就是音视频能力和业务逻辑的解耦。还有第二次架构升级中加入的流程编排引擎和基于FaaS的计算平台。
从Facebook和Netflix视频基础架构的演进看，得出惊人相似的结果。架构迭代中要解决的核心问题是让业务只关注要什么，而不是视频怎么来和放在哪里。如果要满足业务希望的接口，整个媒体处理平台的接口应该是函数式编程，而不仅仅是把计算执行交给FaaS平台。

2.2 Android直播开发之旅(2)：深度解析H.264编码原理

https://blog.csdn.net/andrexpert/article/details/71774230

这篇文章介绍了H.264编码的基本原理，H.264的数据组织形式：

数据的组织形式从大到小排序是：序列(sequence)、图像(frame/field-picture)、片组(slicegroup)、片(slice)、宏块(macroblock)、块(block)、子块(sub-block)、像素(pixel)

讲解了什么是NALU以及NAL技术。介绍了使用工具H.264 Video ES Viewer查看H264流的方法，以及如何判断NALU的不同类型：SPS、PPS、IDR帧等。

3. 计算机视觉

3.1 Stylevision：基于 WebRTC、FFmpeg、Tensorflow 的实时风格变换

https://mp.weixin.qq.com/s/MrXl6MYelDoATYGAeOc6uw

本文首先介绍了风格转换领域三篇重要论文：

A Neural Algorithm of Artistic Style，基石。
Artistic style transfer for videos，视频图像风格转换，使用光流稳定帧。
Perceptual Losses for Real-Time Style Transfer and Super-Resolution，6K+引用。提高性能。

然后介绍了StyleVision的管线架构：
在这里插入图片描述
项目地址：https://github.com/chrisuehlinger/stylevision，目前Star数不多。

3.2 Distractor-aware Siamese Networks for Visual Object Tracking——论文精读

https://shi-tech.blog.csdn.net/article/details/121617864

近年来，Siamese网络以其均衡的精度和速度在视觉跟踪领域引起了巨大关注。但大多数Siamese跟踪方法所使用的特征只能区分前景和非语义背景。语义背景一直被认为是干扰因素，阻碍了Siamese跟踪器的鲁棒性。本文提出了一种基于干扰感知的Siamese网络，用于精确的长时跟踪。通过分析传统Siamese跟踪器使用的特征，我们发现训练数据分布的不均匀导致学习的特征缺乏判别性。在离线训练阶段，引入一种有效的采样策略来控制分布，使模型专注于语义干扰。在推理过程中，设计了一种新的干扰感知模块进行增量学习，可以有效的将通用内嵌项迁移到当前视频域。此外，通过引入一种简单有效的由局部到全局搜索区域的策略，来扩展提出的长时跟踪方法。大量实验表明，我们的方法大大超过了SOTA方法，在VOT2016数据集和UAV20L数据集上的指标分别提高了9.6%和35.9%。本文提出的跟踪器在短时基准上可以达到160FPS，在长时基准上可以达到110FPS。代码地址 https://github.com/foolwood/DaSiamRPN.

4. 图形学

4.1 苹果AR头显明年登场！目标10亿部，搭Mac电脑级芯片

https://mp.weixin.qq.com/s/CW2cQiAi3J6J8OTHpqdPHA

在这里插入图片描述

报告称苹果将于2022年第四季度推出AR头显，将搭载性能媲美M1的“桌面级”芯片和索尼4K Mirco OLED显示屏，目标是在10年内取代iPhone，预计出货将超过10亿部。中国台湾科技企业欣兴电子将成为苹果AR头显芯片关键材料ABF（Ajinomoto Build-up Film）载板的重要供应商。
如果消息属实，那么也就是一年以后，我们将会看到这款苹果AR头显，号称可以完全取代手机或电脑。这无疑是低头族的福音，解放了头了手指，可以360度任何姿势刷新闻，刷视频，玩游戏等。而且伴随的肯定有三维创新应用，背后的生态也会慢慢建立。

superbin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
SUPERBIN技术周刊第8期

本期内容概要：初识DirectML；DirectML 1.8 版本更新内容；视频大时代下基础架构的演进；Android直播开发之旅(2)：深度解析H.264编码原理；Stylevision：基于 WebRTC、FFmpeg、Tensorflow 的实时风格变换；Distractor-aware Siamese Networks for Visual Object Tracking——论文精读；苹果AR头显明年登场！目标10亿部，搭Mac电脑级芯片
复制链接

扫一扫