2021 有趣AI算法简介

本文面向图像处理方向,结构为列举算法、以及其原理、训练所需要的数据、训练注意点,是对当前热门AI算法的一个介绍,暂不包含手把手教程。

其中开发者如果想定制某个算法,可以通过定制算法、训练需要输入数据,来调整自己的模型。非AI开发者可以使用他人已有的模型,图像化的方式直接应用这些AI 算法。

形象替换

在这里插入图片描述

应用

  • 直播中自己的动作、表情,映射到虚拟的2D、3D的卡通人物中
  • 动漫制作,不再需要制作每一帧,而是直接由演员演绎,算法把演绎录像转为动漫人物形象
  • 特朗普宅舞

算法举例

  • 人脸关键点检测
  • 人体姿态估计
  • 手势姿态估计
  • Impersonator++
  • GANsNRoses

算法大概原理

多种AI算法结合

人类思维映射

看到蔡徐坤在打篮球,想象出班主任模仿蔡徐坤打篮球的画面


超分辨率重建

在这里插入图片描述

将图片分辨率变得更高

应用

  • 修复一些老的低分辨率的视频,动漫,电影等,回味经典
  • 高清电视,人脸识别,医疗图像,卫星图像等

算法举例

  • 早期是插值法,但效果太平滑(边界不够锐化)目前普遍是基于CNN / GAN的
  • SRCNN、DRCN、ESPCN、SRResNet/SRGAN、SelfExSR

算法大概原理

人类思维映射

看到一只蚂蚁,脑部蚂蚁变大100倍占领地球

训练需要的输入数据

高清图片/视频以及降分辨率处理后的数据

注意点

可以直接用高清视频降分辨率喂入


AI 声音模仿

【自行脑部声音 - -】

应用

5s模仿任意一个人的声音,并可以合成这个人说任何词语句子,如高德地图、百度地图中的语音包。

算法举例

  • MockingBird https://github.com/babysor/MockingBird3
    • 基于 Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

算法大概原理

算法分为三个模块:encoder模块、systhesis模块、vocoder模块。

  • encoder模块将说话人的声音转换成人声的数字编码(speaker embedding)
  • synthesis 模块将文本转换成梅尔频谱(mel-spectrogram)
  • vocoder模块将梅尔频谱(mel-spectrogram)转换成(波形)waveform

人类思维映射

  • A说了一句话,B耳朵听到了,B的大脑把声音理解为某种信号/数据,B的喉咙将这些数据回放输出为声音
  • 鹦鹉学舌

训练需要的输入数据

不同人说不同话的声音以及对应文本(得到模型)


图像消除

添加链接描述
去掉前景、恢复背景,与该算法相对的是抠图算法(去背景,留前景)

应用

  • 照片中去掉某个人,景区拍照去掉挡住景色的人,海滩去掉所有人
  • 去掉墙上的乱写乱画
  • 实现电影中的隐身术,如恐怖的没人荡秋千,无人粉笔写黑板等
  • 去掉纹身
  • 自动抠图

算法举例

  • Animal Matting
  • MODNet 背景替换
  • SkinDeep

算法大概原理

  • 0
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值