SUPERBIN技术周刊第8期

本技术周刊是以周为单位作为里程碑,记录一个程序员视角下的所见,所学,所想。兴趣领域包括:数学,算法,图形,图像,音视频,AI,游戏,软件开发技术,操作系统,开源,以及生活杂记等。“不积跬步,无以至千里;不积小流,无以成江海。”希望与君共勉。

1. AI

1.1 初识DirectML

https://shi-tech.blog.csdn.net/article/details/121722792

DirectML是微软发布的一套基于DirectX12的机器学习底层推理API。本文对DirectML做了初步介绍,它的优点来源。和其他推理引擎WinML、ONNXRuntime、TensorRT也做了比较。

1.2 DirectML 1.8 版本更新内容

https://github.com/microsoft/DirectML/blob/master/Releases.md

  • 增加DML_FEATURE_LEVEL_5_0
    • 加入四个新操作:
      • DML_OPERATOR_ELEMENT_WISE_CLIP1
      • DML_OPERATOR_ELEMENT_WISE_CLIP_GRAD1
      • DML_OPERATOR_PADDING1
      • DML_OPERATOR_ELEMENT_WISE_NEGATE
    • 下列操作增加了对64位数据类型的支持:

      CLIP, CLIP_GRAD, CUMULATIVE_SUMMATION, CUMULATIVE_PRODUCT, ELEMENT_WISE_MAX, ELEMENT_WISE_MIN, REDUCE+REDUCE_FUNCTION_MAX, REDUCE+REDUCE_FUNCTION_MAX, REDUCE+REDUCE_FUNCTION_SUM, REDUCE+REDUCE_FUNCTION_MULTIPLY, REDUCE+REDUCE_FUNCTION_SUM_SQUARE, REDUCE+REDUCE_FUNCTION_L1, PADDING, SPACE_TO_DEPTH, DEPTH_TO_SPACE, TOP_K, ELEMENT_WISE_NEGATE, ELEMENT_WISE_IF, MAX_POOLING, MAX_UNPOOLING, FILL_VALUE_SEQUENCE, REVERSE_SUBSEQUENCES, ROI_ALIGN BatchIndicesTensor

  • 一些Bug修复。

2. 音视频

2.1 视频大时代下基础架构的演进

https://mp.weixin.qq.com/s/0MeJKITaHWsyMapG1jlXTQ

在这里插入图片描述

这篇文章是LiveVideoStackCon 2021音视频技术大会北京站,来自快手短视频架构负责人黄琦的演讲。本文讲解了随着快手业务量的不断增加,为了适应业务需求,底层音视频架构也经历了多个版本的迭代。比如为了应对在业务代码中升级FFmpeg版本或转码逻辑,就需要连同业务逻辑一起调整,非常影响迭代速度的挑战。把底层技术工具封装成独立服务,并且用配置去管理每个服务的调度方式。也就是音视频能力和业务逻辑的解耦。还有第二次架构升级中加入的流程编排引擎和基于FaaS的计算平台。
从Facebook和Netflix视频基础架构的演进看,得出惊人相似的结果。架构迭代中要解决的核心问题是让业务只关注要什么,而不是视频怎么来和放在哪里。如果要满足业务希望的接口,整个媒体处理平台的接口应该是函数式编程,而不仅仅是把计算执行交给FaaS平台。

2.2 Android直播开发之旅(2):深度解析H.264编码原理

https://blog.csdn.net/andrexpert/article/details/71774230

这篇文章介绍了H.264编码的基本原理,H.264的数据组织形式:

数据的组织形式从大到小排序是:序列(sequence)、图像(frame/field-picture)、片组(slicegroup)、片(slice)、宏块(macroblock)、块(block)、子块(sub-block)、像素(pixel)

讲解了什么是NALU以及NAL技术。介绍了使用工具H.264 Video ES Viewer查看H264流的方法,以及如何判断NALU的不同类型:SPS、PPS、IDR帧等。

3. 计算机视觉

3.1 Stylevision:基于 WebRTC、FFmpeg、Tensorflow 的实时风格变换

https://mp.weixin.qq.com/s/MrXl6MYelDoATYGAeOc6uw

本文首先介绍了风格转换领域三篇重要论文:

  • A Neural Algorithm of Artistic Style,基石。
  • Artistic style transfer for videos,视频图像风格转换,使用光流稳定帧。
  • Perceptual Losses for Real-Time Style Transfer and Super-Resolution,6K+引用。提高性能。

然后介绍了StyleVision的管线架构:
在这里插入图片描述
项目地址:https://github.com/chrisuehlinger/stylevision,目前Star数不多。

3.2 Distractor-aware Siamese Networks for Visual Object Tracking——论文精读

https://shi-tech.blog.csdn.net/article/details/121617864

近年来,Siamese网络以其均衡的精度和速度在视觉跟踪领域引起了巨大关注。但大多数Siamese跟踪方法所使用的特征只能区分前景和非语义背景。语义背景一直被认为是干扰因素,阻碍了Siamese跟踪器的鲁棒性。本文提出了一种基于干扰感知的Siamese网络,用于精确的长时跟踪。通过分析传统Siamese跟踪器使用的特征,我们发现训练数据分布的不均匀导致学习的特征缺乏判别性。在离线训练阶段,引入一种有效的采样策略来控制分布,使模型专注于语义干扰。在推理过程中,设计了一种新的干扰感知模块进行增量学习,可以有效的将通用内嵌项迁移到当前视频域。此外,通过引入一种简单有效的由局部到全局搜索区域的策略,来扩展提出的长时跟踪方法。大量实验表明,我们的方法大大超过了SOTA方法,在VOT2016数据集和UAV20L数据集上的指标分别提高了9.6%和35.9%。本文提出的跟踪器在短时基准上可以达到160FPS,在长时基准上可以达到110FPS。代码地址 https://github.com/foolwood/DaSiamRPN.

4. 图形学

4.1 苹果AR头显明年登场!目标10亿部,搭Mac电脑级芯片

https://mp.weixin.qq.com/s/CW2cQiAi3J6J8OTHpqdPHA

在这里插入图片描述

报告称苹果将于2022年第四季度推出AR头显,将搭载性能媲美M1的“桌面级”芯片和索尼4K Mirco OLED显示屏,目标是在10年内取代iPhone,预计出货将超过10亿部。中国台湾科技企业欣兴电子将成为苹果AR头显芯片关键材料ABF(Ajinomoto Build-up Film)载板的重要供应商。
如果消息属实,那么也就是一年以后,我们将会看到这款苹果AR头显,号称可以完全取代手机或电脑。这无疑是低头族的福音,解放了头了手指,可以360度任何姿势刷新闻,刷视频,玩游戏等。而且伴随的肯定有三维创新应用,背后的生态也会慢慢建立。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

superbin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值