FridaNN-CSDN博客

原创【2023.09.10-12】one2345的相关工作1：SparseNeuS

主要包含两部分，cascaded geometry reasoning\per-scene fine-tuning。级联几何推理包含两部分，一部分是由输入图片直接体编码得到粗网格体积，另一部分是几何引导编码得到更细粒度的细网格体积。然后使用具有一致性的fine-tuning策略优化细网格体积，最终得到精细的曲面。在外观预计部分，SparseNeus使用了多精度的颜色混合模块将图像、几何信息结合在一起预计表面颜色。

2023-09-13 14:33:31 540

原创 [2023.09.09 ]zero123补充知识

8 points algorithm. 因为矩阵缩放后效果相同，所以DOF=9-1，并且F能将2维图像点投影到1维线段中，rank=2,所以不满秩 det F=0, DOF=7. 所以只需要大于等于7个点即可求出F矩阵，但是7 point 方法较为复杂，所以一般使用8 points algorithm。将原图像和压缩后的图像的MSE放在分母，可以得到误差越小，PSNR越大的效果。则投影后的图像的对应像素点之间只存在水平位移（因为左右相机的中心点连线与地面平行），这个水平位移之差则为视差x-x’。

2023-09-11 17:08:48 326

原创【2023.08.18】ddpm重读

本文关键是，通过reparameterizing将训练目标由原有的用逆向过程的均值近似向预计,改为预计（也可以预计但实验证明效果并不好）。并且阐述了DDPM和score matching\autoregressive model之间的关系。在简化后的优化目标下，log likelihood、样本质量都优于已有的likelihoodbased 模型、生成模型。diffusion probabilistic model是指使用了参数化的马尔科夫链定义扩散过程，并且使用变分推断构造优化目标。

2023-08-19 12:48:05 201

原创【2023.08.15】其他transformer

特别的0 patch与额外的可学习的代表类别的embedding结合，而不用和图像patch结合。在DenseNet中认为element-wise addition可能污染中间卷积步骤和skip connection源头的feature map.所以所以可以先选择concatenation，再尝试element-wise addition简化网络。要求输入输出的channel数量相同。损失了一些信息，但保留网络的空间信息，并且计算上相比element-wise addition更高效因为不需要额外的内存。

2023-08-16 16:51:14 107

原创 [2023.08.14]Transformer相关的多模态学习（一）transformer basics

transformer存在一个特点，能够将任意类型的输入建模为拓扑几何空间的全连接图。但CNN要求输入是对齐的网格空间或者矩阵。所以transformer相比于其他深度学习方法，更适合于多模态学习。

2023-08-15 11:10:42 307

原创【2023.08.14】NeRF综述：NeRF-Neural Radiance Field in 3D Vision

在原有的NeRF中，为了将NeRF渲染结果与GT比较，所以确保渲染NeRF时的相机位姿和GT的位姿相同，因此需要从GT中获取相机位姿。值得注意的是，如果将神经网络的部分完全抛弃，则属于neural rendering models而不是NeRF。主要包含两个步骤，第一步correspondence search，寻找不同图像的点的联系，生成sene graph。使用生成的图像引导NeRF，问题在于如何控制主体不变、视角变化。通过训练或者预计算，将NeRF的MLP的结果储存到更易存取的数据结构。

2023-08-14 16:36:53 757

原创【2023.08.01-2023.08.02】dreamfusion问题汇总

当模型收到输入的文本和图像后，把文字中的词和部分图片映射到联合的embedding空间中。当矩阵是正定的（所有特征值为正），则点是局部最小。类似的，当矩阵为负定时（所有特征值为负），点是局部最大值。当Hessian matrix或Hessian matrix的逆矩阵 ill-conditioned时，则如果用Hessian矩阵计算更新方向H-1g时，H或H-1都有可能会放大梯度的错误。点云是对三维物体的一组离散的无结构的采样点，由于不包含全局的结构，所以被认为是non-euclidean data。

2023-08-02 17:06:55 174

原创【2023.07.31】dreamfields&clip-mesh

利用预训练的图像和文本编码器，构造CLIP loss用于优化NeRF，实现文字生成三维物体。所以对场景的透明度分布的均值设计约束。由于如果对一个黑色或白色的alpha-blending的场景渲染，则场景中带密度的点会随着反向传播增加。用扩散模型根据prompt生成的图片再送入clip，将clip得到的图像embedding和渲染的图像embedding计算相似度。close-up shot的升级版，有时只显示主体的眼睛。3）由于远离物体的点有密度，也能满足CLIP loss，所以需要限制密度分布的重心。

2023-08-01 16:08:04 394

原创【2023.07.26-2023.07.28】dreamfusion代码概况

nerf\utlis.py:主要定义Trainer类，train_step函数、train函数、test函数。如使用的nerf类型，包括太极模块加速的nerf、instant ngp的multigrid ，还是一般的nerf。如果是训练模型，则需要选择guidance、优化器、学习率。学习率是固定还是变化。nerf\network.py:定义NeRFRender子类NeRFNetwork，NeRFNetwork实例会在nerf\utlis.py被调用render方法，得到场景sigma、颜色、法线一类。

2023-07-28 14:59:23 315 1

原创【2023.07.24-7.25】pytorch basics:autograd, optimization, save and load model

当把模型所有参数都在定义优化器时，给了同一个优化器，则optimizer.zero_grad()效果等于model.zero_grad().除非一个模型使用了多个优化器优化。(2)梯度函数：如果是直接创建tensor，则.grad_fn=None.如果是y=x+x,则.grad_fn=AddBackward。在初始化优化器时，我们把需要优化的模型参数、超参数作为初始化时的参数传给优化器。在使用loss.backward()更新梯度后，使用optim.step()使用梯度更新模型参数。通过以下两种方式设置。

2023-07-25 21:20:55 75 2

原创 [2023.07.24] pytorch basics:transforms,models

将PIL或ndarray图片转化为tensor. ndarray in (H x W x C) in the range [0, 255] to a torch.FloatTensor of shape (C x H x W) in the range [0.0, 1.0]返回ndarray中最大值的下标，如果参数axis给出，则在特定方向上运行该函数。是模型模块的有序容器，如果数据总是按照相同的顺序输入模块，则可使用。dim=0 的数值为minibatch的维度保留，其他压缩为1d。或打印模型输出尺寸，

2023-07-24 17:00:12 39

原创 [2023.07.24]pytorch basics :tensors and dataloader

内容来自：Tensors — PyTorch Tutorials 2.0.1+cu117 documentationdata=[1,2,3]x_data=torch.tensor(data)np_array=np.array(data)x_data=torch.from_numpy(np_array)//反向的是x_data.numpy()，但是修改numpy矩阵和修改tensor都会影响另一个的值。x_data=torch.zeros_like(tensor_b)shape=(1,2,)x_data=ze

2023-07-24 11:25:34 68

原创【2023.7.21】中国SIGGRAPH论文预报告会二

优化相机位置、提取关键帧（根据环境3d点、2d点、第一步动捕相机估计位置优化相机位置）->人体位移更新（利用上一秒位置和加速度预测产生先验知识）--mapping and closing 地图点置信度设计，闭环检测（用动捕先验指导误差分配）2）背景：Mano-piano（骨骼先验，数据集由mii扫描、医学人员标注）-nimble（相比piano模型增加肌肉信息）-sculptor(数据集来源基于整形外科，包含头部ct扫描信息及术后术前外观)1）背景：相机方法（Slam相机位置重建方法受遮挡时，无法重建）；

2023-07-23 00:01:06 203

原创【2023.7.20】中国SIGGRAPH论文预报告会一

为了提高皮肤材质的多样性，用finetune前的模型（人种多样性）和finetune后（更了解皮肤的特点）的共同优化。然后通过网络内层的material vision transformer提取全局特征，解决局部特征的接缝问题（如左右粗糙度不一致问题）。根据输入视频，利用3DMM tracking 的参数化方法实现对资产的控制。该工作的主要问题，物体自身遮挡的部分角度的入射光、出射光，改变了BRDF。嘴部的内部结构不清楚、视频驱动人和输出的数字资产的体型差距较大时，输出结果的视频中人的体型会发生变化。

2023-07-20 21:51:49 345

原创【2023.7.19】安装dreamfusion代码和环境

总结：首先pytorch语法还存在不熟悉的问题，计划先1-2天补齐。目前dream-fusion代码结构主要分为如下几个部分：NeRF、Ray marching、Stable diffusion、Classifier-guidance、SDS-Loss、CLIP-measurement、Dmtet。预估各自需要2-3天的时间将代码和算法对应。

2023-07-20 00:24:52 653

原创【2023.07.18】Guidance

由于直接在每次迭代时增加条件如：，模型容易逐渐忽略条件信息。

2023-07-18 17:21:25 146 1

原创【2023.07.15】生成模型（三）Score-based Generative Models

2）提供了两个针对求解reverse-time的SDE求解器：一个求解器将数值SDE求解器与score based MCMC方法相结合，另一个求解器主要基于probability flow ode。因此对于未知真实的score function 的情况需要使用其他采样方法如sliced-score matching。因此通过Markov Chain采样。直观的理解，模型在不常见的样本上可学习到的信号非常少，而学习到更多噪声。一，当x位于高维空间的低维流形上，目标的score function就难以求解。

2023-07-18 16:26:51 435 1

FridaNN的博客