咆哮的大叔
码龄9年
关注
提问 私信
  • 博客:221,014
    问答:8,763
    视频:166
    229,943
    总访问量
  • 59
    原创
  • 74,490
    排名
  • 193
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:给儿子树立一个爱写博客的好榜样。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 目前就职: 深圳市即构科技有限公司
  • 加入CSDN时间: 2015-08-21
博客简介:

丝萝愿为乔木的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    583
    当月
    2
个人成就
  • 获得220次点赞
  • 内容获得192次评论
  • 获得1,284次收藏
  • 代码片获得263次分享
创作历程
  • 3篇
    2024年
  • 10篇
    2023年
  • 3篇
    2022年
  • 2篇
    2021年
  • 6篇
    2020年
  • 5篇
    2019年
  • 4篇
    2018年
  • 22篇
    2017年
  • 5篇
    2016年
成就勋章
TA的专栏
  • 重演
    1篇
  • 数字人
    2篇
  • 语音识别
    2篇
  • 3D重建
    3篇
  • 问答系统
    1篇
  • 分类
    1篇
  • GAN系列
    1篇
  • 关键点回归
    1篇
  • 跟踪
    4篇
  • 检测
    4篇
  • 可解释性
    2篇
  • 机器学习
    20篇
  • 环境配置
    4篇
  • 深度学习基础知识
    8篇
  • 分割
    3篇
  • 细粒度分类
    2篇
兴趣领域 设置
  • 人工智能
    深度学习神经网络tensorflow图像处理
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

vox256_linear_manipulation

发布视频 2024.05.15

Lia 原理

W_rd: driving image通过编码器E 映射成512维向量,然后通过MLP映射成20维视觉向量A_rd,与字典D中的向量结合得到w_rd,字典D包含了代表不同视觉变换的正交基,字典D是训练中学习得到的,每个向量有特定语意。若id不同,则采用relative transfer,即将第一帧与驱动帧(target)的变化差异施加到源帧(source)上,并且要求源人脸和第一帧的pose要相似。X_s (source image )映射到编码Z_sr,通过W_rd方向上的变化,得到新的编码Z_sd。
原创
发布博客 2024.05.09 ·
459 阅读 ·
4 点赞 ·
0 评论 ·
6 收藏

DInet

adaat:空间变形,在人脸姿态检测里面有引用,在特征通道空间中进行仿射变换,【R,T,S】,实现错位图像生成,保证生成的嘴型姿态跟带预测嘴型帧的姿态一致。输入:随机5帧参考帧reference image,随机一张待生成的mask后的原图source image,source image对应的音频。c):refs:fintune 固定参考帧,为video.refs,给这连续5帧每一帧配固定的5帧参考帧。2):处理这5帧连续帧,:source_frames:连续5帧的crop_moth。
原创
发布博客 2024.05.08 ·
506 阅读 ·
4 点赞 ·
0 评论 ·
12 收藏

将百度网盘中数据集直接下载到服务器上

如何将百度网盘中数据集直接下载到服务器上
原创
发布博客 2024.04.18 ·
818 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

各式各样的轮子们

有时候直接进行resize会有形变,所以想到这样的方式,同比例缩放,然后补0。torchvision中是用的PIL。在推理时需要用opencv。
原创
发布博客 2023.08.29 ·
240 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

音频降噪之人声分离

集成目前最先进的从音频文件中分离人声的源分离模型。本工程,将Ultimate Vocal Remover GUI v5.5.1界面工具,改写成可以在服务器端批量推理的工具。界面仓库地址:https://github.com/Anjok07/ultimatevocalremovergui。
原创
发布博客 2023.07.24 ·
4100 阅读 ·
3 点赞 ·
4 评论 ·
15 收藏

字幕切分视频

开口说话到,发出音,大概有13,14,12,20,帧左右的误差,也就是说有0.8S左右的误差,所以建议,如果取无声音频,end要往前挪10帧。WhisperX:跑完:143S ,11段前,对10段,18段中,对17段,5段后,对5段。一句话说完,从没有声音到完全闭上嘴,大概有5帧,8帧,10帧左右,大概有0.4S左右的误差。Tiny: 跑完:142S ,11段前,对0段,18段中,对10段,5段后,对5段。Large:跑完:941S,11段前,对0段,18段中,对2段,5段后,对4段。
原创
发布博客 2023.07.18 ·
1997 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

VS上配置docker步骤记录

docker images. #列出本地主机上的镜像列表。它会显示镜像的相关信息,如镜像ID、仓库名称、标签、大小等。docker images. #列出本地主机上的镜像列表。它会显示镜像的相关信息,如镜像ID、仓库名称、标签、大小等。docker ps #列出正在运行的容器。它会显示容器的相关信息,如容器ID、镜像名称、创建时间、状态等。docker ps #列出正在运行的容器。它会显示容器的相关信息,如容器ID、镜像名称、创建时间、状态等。#将当前用户添加到docker用户组中。
原创
发布博客 2023.07.03 ·
1349 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Wav2Lip原理以及训练

常规SyncNet:功能:音频和嘴唇同步实质:判断音频和唇形在某个共同参数空间下的相似性。网络结构:一种伪孪生网络结构,分别提取嘴形特征和音频特征,然后通过对比损失计算两者之间的距离。
原创
发布博客 2023.06.26 ·
14407 阅读 ·
12 点赞 ·
16 评论 ·
59 收藏

生成式人脸修复增强调研

图像增强修复
原创
发布博客 2023.05.09 ·
3413 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏

问答系统(QA)调研

问答系统调研
原创
发布博客 2023.02.24 ·
2516 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏

wav2vec 2.0:一种自监督的语音识别方法

wav2vec 2.0算法梳理
原创
发布博客 2023.02.20 ·
2068 阅读 ·
4 点赞 ·
0 评论 ·
13 收藏

Mnn 模型转化指南

MNN模型转化以及量化的方法指南
原创
发布博客 2023.02.07 ·
1277 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

U-Net概述

分割概要
原创
发布博客 2023.02.06 ·
331 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

《Towards Fast, Accurate and Stable 3D Dense Face Alignment 》3DDFA-V2论文研读和工程实现

脸型问题的一个方案
原创
发布博客 2022.10.13 ·
1561 阅读 ·
2 点赞 ·
2 评论 ·
9 收藏

《MeInGame: Create a Game Character Face from a Single Portrait 》论文解读

《MeInGame》
原创
发布博客 2022.08.31 ·
1673 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

高保真数字人头《High-Fidelity 3D Digital Human Head Creation from RGB-D Selfies》

3D人头形象
原创
发布博客 2022.06.23 ·
2086 阅读 ·
3 点赞 ·
3 评论 ·
10 收藏

服务器经常莫名其妙挂

发布问题 2021.06.29 ·
1 回答

Interpretable Convolutional Neural Networks研读

(感觉跟上一篇看的可解释cnn没什么差别,都是在高层的卷积层中的每个卷积核加一个loss,查看代码,所加的loss就logistic或者softmax,正在学习中,如果理解有误的地方,敬请谅解并欢迎指出)摘要:为了解释高层卷积层CNN中的知识表示,本文在传统CNN基础上提出可解释CNN。可解释CNN,能够在高层卷积层的每个卷积核代表一个特定的目标部件(比如猫头,猫脚等).可解释CNN,使用传统的训练集训练,不作任何部件标注,能够在学习阶段给高层卷积层的卷积核自动分配每个特定部件。可以将可解释CNN应用在
原创
发布博客 2021.01.07 ·
1197 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Interpretable CNNs for Object Classification 研读

摘要:在分类任务中,本文提出一个在深度神经网络中学习可解释性CNN的方法。在此方法中,在深层的可解释性CNN中,每个核可以解码目标的特定部件。我们使用常规数据集,不需要对数据额外的标注或者提供纹理信息作为监督训练。我们的方法在学习过程中,能够自动对高层卷积网络的每个核分配一个目标部件类别。可解释性CNN中,显性知识表示可以帮助人们理解CNN的内部逻辑结构,即对于一张输入图像CNN提取的什么模式用来预测。实验表示,可解释性卷积网络比传统卷积更加有语义意义。背景几年来,卷积网络在不同的领域中都取得很优异的
原创
发布博客 2021.01.04 ·
880 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏
加载更多