这些 AI 算法太强了，我有个大胆的想法！

最新推荐文章于 2024-03-06 16:17:02 发布

AI科技大本营

最新推荐文章于 2024-03-06 16:17:02 发布

阅读量3.4k

点赞数 2

文章标签：人工智能计算机视觉编程语言深度学习图像识别

来源 | Jack Cui

责编 | Carol

封图 | CSDN付费下载自视觉中国

好久没有推荐有趣的算法了，今天作者再带大家逛逛「AI 乐园」，看看最近新出了哪些新奇好玩的 AI 算法。

深度估计

不知你有没有发现，最新的视觉技术研究，多了很多 3D 相关的工作。

深度估计就是其中之一。

Facebook 的最新一项研究，根据视频帧序列，就可以稳定地估计图像的深度。

图像深度信息有了，就可以做很多有意思的视频特效：

「水漫金山」、「漫天飞雪」、「金星环绕」。

论文提出了一种重建单目视频中所有像素密集、几何一致性深度估计算法。

比以往的单目深度估计方法具有更高的精度，同时结果更加稳定。

代码开源，盘它！

项目地址：

https://github.com/facebookresearch/consistent_depth

Wav2Lip

AI 技术可以撑起鬼畜视频的一片天。

Wav2Lip，算法如其名，Wav 音频转嘴唇 Lip。

就是字面的意思，给算法一个音频文件，算法可以让视频里的人物，将这段话自然地念出来。

任何人物身份，甚至包括卡通人物，任何语音和语言，都可以将口型视频高精度同步到任何目标语音。

这位老哥甚至还为小白量身打造了网页 Demo，上传音频和视频就可以体验。

网页地址：

https://bhaasha.iiit.ac.in/lipsync/

对于有一定编程基础的，可以去 GitHub 下载源代码，只要有你想鬼畜的人的照片或者视频，再输入一段文字，就能合成你想要的视频了。

比如来一段「特朗普热爱中国宣言」，是不是就突然来了灵感。

天啊，我脑海里浮现了好多大胆的想法。

有个 Wav2Lip 还不算完，还有个 Lip2Wav。

我们可以理解为 AI “读唇术”。

视频的声音没了，Lip2Wav 帮你生成。

根据画面嘴唇的动作，进行“读唇”，给你音频结果。

值得注意的是，Lip2Wav 和 B站那些机械风格的鬼畜调音不一样。

这个 AI 效果炸裂，你几乎感觉不到是机器配音，就像人类在发言一样。

算法原理就是根据面部特征，对唇部进行编码，再使用 LSTM 进行音频合成。

Wav2Lip 和 Lip2Wav 都有开源代码。

来吧，翻牌子，喜欢哪个点哪个。

Wav2Lip 项目地址：

https://github.com/Rudrabha/Wav2Lip

Lip2Wav 项目地址：

https://github.com/Rudrabha/Lip2Wav

HiFiC

没做过网站的朋友可能不知道。

图片的大小，太影响网页的加载速度了。

过多过大的图片，可能让你的页面加载，就像老太太吃硬饼一样，得慢慢磨。

还在为图像加载犯愁吗？

最新的好消息是，谷歌团队采用了一种 GANs 与基于神经网络的压缩算法相结合的图像压缩方式HiFiC，在码率高度压缩的情况下，仍能对图像高保真还原。

下面是这种算法展现出来的图像与 JPG 格式图像的对比。

左边是 HiFiC 算法压缩效果，右边是同等体积 JPG 格式图片的效果。

可以非常明显地看到，HiFiC 算法压缩的图片要清晰太多了。

代码还没有开源，但是作者老哥说「快了，快了，这次一定！」

想要体验的小伙伴，直接网页走起！

项目地址：

https://hific.github.io/

更多精彩推荐

AI科技大本营

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
这些 AI 算法太强了，我有个大胆的想法！

来源 |Jack Cui责编 | Carol封图 | CSDN付费下载自视觉中国好久没有推荐有趣的算法了，今天作者再带大家逛逛「AI 乐园」，看看最近新出了哪些新奇好玩的 AI 算法。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。