自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 【2023.09.10-12】one2345的相关工作1:SparseNeuS

主要包含两部分,cascaded geometry reasoning\per-scene fine-tuning。级联几何推理包含两部分,一部分是由输入图片直接体编码得到粗网格体积,另一部分是几何引导编码得到更细粒度的细网格体积。然后使用具有一致性的fine-tuning策略优化细网格体积,最终得到精细的曲面。在外观预计部分,SparseNeus使用了多精度的颜色混合模块将图像、几何信息结合在一起预计表面颜色。

2023-09-13 14:33:31 540

原创 [2023.09.09 ]zero123补充知识

8 points algorithm. 因为矩阵缩放后效果相同,所以DOF=9-1,并且F能将2维图像点投影到1维线段中,rank=2,所以不满秩 det F=0, DOF=7. 所以只需要大于等于7个点即可求出F矩阵,但是7 point 方法较为复杂,所以一般使用8 points algorithm。将原图像和压缩后的图像的MSE放在分母,可以得到误差越小,PSNR越大的效果。则投影后的图像的对应像素点之间只存在水平位移(因为左右相机的中心点连线与地面平行),这个水平位移之差则为视差x-x’。

2023-09-11 17:08:48 326

原创 【2023.08.18】ddpm重读

本文关键是,通过reparameterizing将训练目标由原有的用逆向过程的均值近似向预计,改为预计(也可以预计但实验证明效果并不好)。并且阐述了DDPM和score matching\autoregressive model之间的关系。在简化后的优化目标下,log likelihood、样本质量都优于已有的likelihoodbased 模型、生成模型。diffusion probabilistic model是指使用了参数化的马尔科夫链定义扩散过程,并且使用变分推断构造优化目标。

2023-08-19 12:48:05 201

原创 【2023.08.15】其他transformer

特别的0 patch与额外的可学习的代表类别的embedding结合,而不用和图像patch结合。在DenseNet中认为element-wise addition可能污染中间卷积步骤和skip connection源头的feature map.所以所以可以先选择concatenation,再尝试element-wise addition简化网络。要求输入输出的channel数量相同。损失了一些信息,但保留网络的空间信息,并且计算上相比element-wise addition更高效因为不需要额外的内存。

2023-08-16 16:51:14 107

原创 [2023.08.14]Transformer相关的多模态学习(一)transformer basics

transformer存在一个特点,能够将任意类型的输入建模为拓扑几何空间的全连接图。但CNN要求输入是对齐的网格空间或者矩阵。所以transformer相比于其他深度学习方法,更适合于多模态学习。

2023-08-15 11:10:42 307

原创 【2023.08.14】NeRF综述:NeRF-Neural Radiance Field in 3D Vision

在原有的NeRF中,为了将NeRF渲染结果与GT比较,所以确保渲染NeRF时的相机位姿和GT的位姿相同,因此需要从GT中获取相机位姿。值得注意的是,如果将神经网络的部分完全抛弃,则属于neural rendering models而不是NeRF。主要包含两个步骤,第一步correspondence search,寻找不同图像的点的联系,生成sene graph。使用生成的图像引导NeRF,问题在于如何控制主体不变、视角变化。通过训练或者预计算,将NeRF的MLP的结果储存到更易存取的数据结构。

2023-08-14 16:36:53 757

原创 【2023.08.01-2023.08.02】dreamfusion问题汇总

当模型收到输入的文本和图像后,把文字中的词和部分图片映射到联合的embedding空间中。当矩阵是正定的(所有特征值为正),则点是局部最小。类似的,当矩阵为负定时(所有特征值为负),点是局部最大值。当Hessian matrix或Hessian matrix的逆矩阵 ill-conditioned时,则如果用Hessian矩阵计算更新方向H-1g时,H或H-1都有可能会放大梯度的错误。点云是对三维物体的一组离散的无结构的采样点,由于不包含全局的结构,所以被认为是non-euclidean data。

2023-08-02 17:06:55 174

原创 【2023.07.31】dreamfields&clip-mesh

利用预训练的图像和文本编码器,构造CLIP loss用于优化NeRF,实现文字生成三维物体。所以对场景的透明度分布的均值设计约束。由于如果对一个黑色或白色的alpha-blending的场景渲染,则场景中带密度的点会随着反向传播增加。用扩散模型根据prompt生成的图片再送入clip,将clip得到的图像embedding和渲染的图像embedding计算相似度。close-up shot的升级版,有时只显示主体的眼睛。3)由于远离物体的点有密度,也能满足CLIP loss,所以需要限制密度分布的重心。

2023-08-01 16:08:04 394

原创 【2023.07.26-2023.07.28】dreamfusion代码概况

nerf\utlis.py:主要定义Trainer类,train_step函数、train函数、test函数。如使用的nerf类型,包括太极模块加速的nerf、instant ngp的multigrid ,还是一般的nerf。如果是训练模型,则需要选择guidance、优化器、学习率。学习率是固定还是变化。nerf\network.py:定义NeRFRender子类NeRFNetwork,NeRFNetwork实例会在nerf\utlis.py被调用render方法,得到场景sigma、颜色、法线一类。

2023-07-28 14:59:23 315 1

原创 【2023.07.24-7.25】pytorch basics:autograd, optimization, save and load model

当把模型所有参数都在定义优化器时,给了同一个优化器,则optimizer.zero_grad()效果等于model.zero_grad().除非一个模型使用了多个优化器优化。(2)梯度函数:如果是直接创建tensor,则.grad_fn=None.如果是y=x+x,则.grad_fn=AddBackward。在初始化优化器时,我们把需要优化的模型参数、超参数作为初始化时的参数传给优化器。在使用loss.backward()更新梯度后,使用optim.step()使用梯度更新模型参数。通过以下两种方式设置。

2023-07-25 21:20:55 75 2

原创 [2023.07.24] pytorch basics:transforms,models

将PIL或ndarray图片转化为tensor. ndarray in (H x W x C) in the range [0, 255] to a torch.FloatTensor of shape (C x H x W) in the range [0.0, 1.0]返回ndarray中最大值的下标,如果参数axis给出,则在特定方向上运行该函数。是模型模块的有序容器,如果数据总是按照相同的顺序输入模块,则可使用。dim=0 的数值为minibatch的维度保留,其他压缩为1d。或打印模型输出尺寸,

2023-07-24 17:00:12 39

原创 [2023.07.24]pytorch basics :tensors and dataloader

内容来自:Tensors — PyTorch Tutorials 2.0.1+cu117 documentationdata=[1,2,3]x_data=torch.tensor(data)np_array=np.array(data)x_data=torch.from_numpy(np_array)//反向的是x_data.numpy(),但是修改numpy矩阵和修改tensor都会影响另一个的值。x_data=torch.zeros_like(tensor_b)shape=(1,2,)x_data=ze

2023-07-24 11:25:34 68

原创 【2023.7.21】中国SIGGRAPH论文预报告会二

优化相机位置、提取关键帧(根据环境3d点、2d点、第一步动捕相机估计位置优化相机位置)->人体位移更新(利用上一秒位置和加速度预测产生先验知识)--mapping and closing 地图点置信度设计,闭环检测(用动捕先验指导误差分配)2)背景:Mano-piano(骨骼先验,数据集由mii扫描、医学人员标注)-nimble(相比piano模型增加肌肉信息)-sculptor(数据集来源基于整形外科,包含头部ct扫描信息及术后术前外观)1)背景:相机方法(Slam相机位置重建方法受遮挡时,无法重建);

2023-07-23 00:01:06 203

原创 【2023.7.20】中国SIGGRAPH论文预报告会一

为了提高皮肤材质的多样性,用finetune前的模型(人种多样性)和finetune后(更了解皮肤的特点)的共同优化。然后通过网络内层的material vision transformer提取全局特征,解决局部特征的接缝问题(如左右粗糙度不一致问题)。根据输入视频,利用3DMM tracking 的参数化方法实现对资产的控制。该工作的主要问题,物体自身遮挡的部分角度的入射光、出射光,改变了BRDF。嘴部的内部结构不清楚、视频驱动人和输出的数字资产的体型差距较大时,输出结果的视频中人的体型会发生变化。

2023-07-20 21:51:49 345

原创 【2023.7.19】安装dreamfusion代码和环境

总结:首先pytorch语法还存在不熟悉的问题,计划先1-2天补齐。目前dream-fusion代码结构主要分为如下几个部分:NeRF、Ray marching、Stable diffusion、Classifier-guidance、SDS-Loss、CLIP-measurement、Dmtet。预估各自需要2-3天的时间将代码和算法对应。

2023-07-20 00:24:52 653

原创 【2023.07.18】Guidance

由于直接在每次迭代时增加条件如:,模型容易逐渐忽略条件信息。

2023-07-18 17:21:25 146 1

原创 【2023.07.15】生成模型(三)Score-based Generative Models

2)提供了两个针对求解reverse-time的SDE求解器:一个求解器将数值SDE求解器与score based MCMC方法相结合,另一个求解器主要基于probability flow ode。因此对于未知真实的score function 的情况需要使用其他采样方法如sliced-score matching。因此通过Markov Chain采样。直观的理解,模型在不常见的样本上可学习到的信号非常少,而学习到更多噪声。一,当x位于高维空间的低维流形上,目标的score function就难以求解。

2023-07-18 16:26:51 435 1

原创 【2023.07.14】生成模型(二) HVAE和VDM

prior matching term衡量的最终步隐变量和高斯先验的KL散度,并且该项不存在参数可优化,仅当T值足够大,该项值就会近似为零。上求均值,如果类似的使用VAE的用monte carlo estimate,则估计得到的consistency term值会偏大,并且这个偏离在大T值时非常明显。该公式可以被这样理解:score function决定了去噪优化方向,而最快的方向即为和加噪方向的反方向。一个指数族的均值可以通过样本的最大似然估计和与估计的分数相关的修正项预测。

2023-07-14 20:30:24 481 1

原创 【2023.7.13-7.14】生成模型(一):背景及VAE

也不能获得隐变量编码器p(z|x),利用概率的链式法求得p(x)。后者是确保学习的隐变量分布和真实的隐变量分布先验尽可能的接近。P(B|A)=L(A|B)基于likelihood的理解此时把A当作参数,学习B的数据分布;变分推断指的是用参数化的分布族拟合复杂分布,在VAE中指的是通过对参数。energy-based: 分布先被当作一个任意的灵活的能量方程学习,然后被正则化。假设可观察变量x类似墙上的投影,被类似三维物体的隐变量控制。生成模型的目标是:根据观察到的样本x的分布,学习真实的。

2023-07-14 15:13:23 116 1

翻译 【2023.07.12】如何阅读文献

和文章作者建立相同的假设,解决相同的问题。比较文章的思路和自己的思路。step3:看看第二步中挑出的会议的最近的文章,筛选出高质量的文章。将这些文章和第二步的文章整理起来,得到初步的survey。注:从作者的角度出发,同理:如果仅靠第一遍阅读的部分内容不能使审稿人明白、感兴趣,则就不会被阅读。判断根据图表的内容是否能够明显的观察出结论,结论是否有说服力。(合理的分类,让那些目前和研究不相关的文章也能留有印象,未来可能用到)文章的内容:(相关的文章?归纳文章的主干、文章用于支持论点的证据。

2023-07-12 14:24:53 69 1

原创 【2023.07.10-07.11】DreamFusion方法内容

查询场景的NeRF得到渲染的颜色, 用另一个MLP以位置编码后的光线为输入储存环境颜色。这样避免NeRF场景把距离相机很近的部分都占满了,并且也能在生成的场景前添加效果。这是由于U-Net的Jacobian项计算量大,但是近似计算低噪声时的边缘分布的缩放后的Hessian矩阵会变得病态,难以收敛。(特别的,在渲染过程中,随机将着色率换为纯白,防止模型过拟合生成的3d结果是平面图像)与NeRF的主要差别:先参数化表面的颜色,然后叠加光照。的score matching的目标函数的形式构造。

2023-07-11 20:45:49 537

原创 [2023.07.09]dreamfusion概述及背景,以及diffusion model相关知识

没有标注的3d数据集,用于去噪3d数据的有效结构的情况下。通常text to 3d的做法使用CLIP+NeRF,本文使用从2d模型中蒸馏出的loss代替CLIP。而使用用2d的扩散模型构造一个类似概率密度蒸馏的损失函数,用于调优2d图像生成器的参数。在类似DeepDream的过程,使用梯度下降优化这个loss随机初始化的3d模型(一个损失函数同时用在两个位置?diffusion model的去噪过程,由于每次去噪都会生成新样本。

2023-07-09 23:18:17 897 1

转载 【2023.07.07】由nerf发散思考了一些问题,只整理了,未细看

短期的发展方向是将nerf转换为mesh,主要分为形状转换和材质转换。长期发展方向是直接使用NeRF渲染,需要解决无法编辑、硬件支持性低、渲染开销高的问题。

2023-07-07 21:03:13 1011 1

原创 【2023.07.06】Nerf: Representing Scenes as Neural Radiance Fields for View Synthesis论文方法阅读

隐式神经表示(Implicit Neural Representation,INR)(也称为基于坐标的表示)将信号参数化一个连续函数,虽然该函数并不是解析的,但是使得信号所占的内存只与信号自身的复杂性相关,将信号与图像分辨率解耦合,因此可以实现超分辨率。如果密集采样N个点,因为遮挡和空余空间的存在,这些位置对渲染结果没有影响,但是被反复采样,效率低。第一步,首先使用分层采样(stratified sampling)采样Nc 个位置,并计算体渲染公式在Nc个位置的值。在得到采样点后,使用编码函数。

2023-07-06 20:05:32 157 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除