寒雪zhi冬-CSDN博客

原创 Is Space-Time Attention All You Need for Video Understanding?论文学习笔记

我认为这篇文章提供了对于具有三维关联性（时间一维，空间两维）的数据类型使用Transformer进行学习的一种方法框架。同时也证明了Transformer在一定条件下能实现比传统CNN更好的效果。最后，本文对于不同数据集的数据特征的分析以及这些特征对于训练的影响也值得学习。

2023-11-06 18:00:17 527

原创 End-to-End Video Instance Segmentation with Transformers论文学习笔记

简介：视频实例分割是对于视频中感兴趣的对象实例进行分类，分割和跟踪的任务，文章提出了一个被称为VisTR的视频实例分割框架，它将分个任务视为一个端到端的并行序列解码预测问题，即给定一个由多个图像帧组成的视频剪辑作为输入，VisTR按序列输出视频中每个实例的掩码序列。VisTR从相似性的角度，将视频作为一个整体进行监督和分割。这一模型建立在Transformer框架上。

2023-11-02 09:54:56 466

原创 PolyDiffuse：Polygonal Shape Reconstruction via Guided Set Diffusion Models 论文学习笔记

训练时，由于x0是已知的，所以每个多边形的顶点数目和大体位置都是已知的。而在测试时，这些都是未知的。因此使用一个proposal generator来生成假定的最终分布x0的初始值，即假定最终生成的各个多边形的顶点数目和大体位置。这种分布的生成过程可以是人工的或通过某种算法得出的。首先根据假定分布来计算出初始的符合高斯分布的噪声，然后再逐步降噪，降噪的过程类似于公式4。其中ϵ是降噪网络。输入为整个集合的当前状态xt，并输出每个元素的噪声预测。

2023-11-01 16:54:19 778 1

原创 Diffusion扩散模型学习笔记

通过代入能发现xa到xb之间的推导关系，从而能推导出x0到xt的推导公式（上边标横杠表示累乘，这里有个大前提，即每一步的噪音都需要满足标准正态分布）这表示，任意时刻的分布实际上可以由x0直接算出。而α（也就是1-β）相当于一个权重，随着时刻增加，噪声所占的权重越大，而前一时刻的图像所占权重越少，这也代表着加噪程度随着时刻的增加而逐渐增大。（个人觉得可以结合反向还原的过程考虑：还原就和画画一样，先描出一个大体轮廓和上色，然后慢慢修改细节，随着时间的增加修改的细节也越来越细，而还原的过程也应如此。

2023-10-25 16:44:25 421

原创 Re:PolyWorld - A Graph Neural Network for Polygonal Scene Parsing论文阅读笔记

本文提出的神经网络是。

2023-10-20 20:21:22 641 2

原创 GAMES104:AI篇3：高级AI

行为树是反应型AI，只会对输入做出预先定义的反应，却没有具体的目标。层次级任务网络（下面简称HTN）则能使AI像人类一样有具体的计划。AI的HTN一般包括如下几个要素：world state：世界观，AI对世界认知的描述Sensors：感知器，接收游戏中的信息并修改其world stateHTN Domain：HTN的主要结构，将层次化的task放在里面，描述task和task之间的关系Planner：根据世界观和HTN Domain来制定计划。

2023-10-04 19:24:30 492 2

原创 GAMES104：AI篇2：人群模拟和基础决策算法

叶子结点分为动作结点和状态结点，动作结点是决策中执行的动作，即判断条件，其返回值有三种：动作成功，动作失败，忙碌状态（正在执行某种状态）。越逼真的AI它在场景中所处的状态应该越和真人一样（如能受到战争迷雾影响的AI，能受周边声音影响的AI等，在战术游戏中这很有用）。1.自底向上模型:给每个个体定义一套简单的规则（如远离其它个体，逼近其它个体，朝向同一方向等）来模拟整个群体的AI，其缺点是群体行为是不可控的。Decorator：用于实现一些不属于上述三种控制结点的零碎的功能，如循环，延时，仅执行一次等等。

2023-10-04 11:48:59 922 1

原创。GAMES104游戏开发笔记：AI——寻路算法篇

从起点连接到下一个多边形的连接边的两个端点，形成一个扇形区域，判断下一个polygon是否完全在扇形区域里，若在内部，则再通过下一个连接边从而确定新的扇形区域，并判断下下个多边形是否完全在里面并确定新的行走路径。直到不完全在内部时，通过连接起点到连接边两端形成两条新的路径，判断哪个路径能离终点更近并将其作为行走路径，以该路径终点作为新的起点重复上述算法。Navigation Mesh：最普遍的寻路算法，将所有可通行的区域用多边形mesh表示，根据不同区域间的连接关系构成图并寻路。

2023-09-21 10:42:34 1163 1

原创游戏开发笔记整理场景管理与碰撞检测

它的构造过程和八叉树类似，最大的不同就是垂直分割面的确定：通常在三维空间中，会随着树的深度增加将与X/Y/Z轴垂直的三个平面轮流作为分割面。常见的场景管理方式包括网格，四叉树，八叉树，BSP，BVH等。：便于快速定位场景里的对象，妥善解决处理巨大场景带来的内存开销问题和渲染效率问题（如渲染过程中的剔除，可以剔除所有不可视的结点空间），处理大量对象碰撞检测的效率问题（最后一点非常重要！八叉树和四叉树的实现算法相似，但是八叉树是将三维空间划分为八个大小相等的子空间，它也常被用于三维空间的空间管理。

2023-09-20 11:11:07 273 1

原创 games104现代游戏引擎学习笔记整理(06游戏中地形大气和云的渲染——天空篇)

单向散射和多方向散射，一个直接通过通透度等参数获得光从大气折射到眼中的效果，一个是计算光在大气中多个粒子弹射并相加获得的结果，简单来说前者直接把整个大气模拟成一个模型，后者则是考虑到了大气中不同的粒子和介质。4.周围的气体的光打到该气体分子。现在的方法：在假设周围光是均匀照入的情况下，散射是均匀的，这样只需要算出每次能量的损耗（这个假设是固定的），从而很简单地得出无数次散射后光照的贡献度。一个四维表，三个输入参数分别是：视线与太阳的角度，视线与天顶轴的角度，太阳与天顶轴的角度，获得的是某个点的通透度。

2023-07-13 20:40:16 168 1

原创 games104现代游戏引擎学习笔记整理(06游戏中地形大气和云的渲染——地形篇)

贴图效果的进化：颜色贴图->凹凸贴图（支持一定的光照效果）->视差贴图（在贴图表面造成一定的凹凸感）->displacement mapping（在近处的视差贴图会被细化成真实的网格）目前地形绘制的问题：浮点数的数据溢出，由于采用的是世界坐标系，因此在距离过远或差距过小时，贴图数据可能会由于精度问题发生位置显示的抖动，且距离越远/差距越小抖动越明显。的概念被踢出，即根据观察距离的远近来改变渲染模型的精度，近处采用高LOD，即高精度的模型来渲染，而远处采用低LOD，即低精度的模型来渲染。

2023-07-08 20:56:19 392 1

原创 games104现代游戏引擎学习笔记整理(05.渲染中光和材质的数学魔法)

漫反射光表示一个物体表面均匀射向四周的一个光强，它的大小由射入到摄像机的光强由入射到物体表面的光强（一般会随距离衰减）和入射光的入射角度以及物体表面的漫反射参数决定；高光则代表物体表面的镜面反射光强，它的大小由入射光的强度，出射角度与观察角度的夹角，以及物体本身的高光系数决定。在场景上撒一堆探针并预先计算好探针上的光场，人物移动时根据看到的位置周围的探针进行光照效果的插值计算，从而获得整个场景的光照效果（有点类似于对渲染空间体素化后对每个体素的光照效果进行预计算）。这是典型的空间换时间算法，一般适用于。

2023-07-07 20:54:37 320 1

原创 games104现代游戏引擎学习笔记整理（04.游戏引擎中的渲染实践）

在现代游戏引擎中，一个mesh会根据各部分材质的不同会被切分为不同的子mesh，每个mesh都有各自的shader，material等，但顶点相关的会被存储在父节点的buffer中。单指令多线程运算，一条指令能执行更多批的数据运算，一般有多核的运算要求，即是针对多个核的处理器构造的指令，是硬件上的，虽然对硬件要求更高，但是处理量级也远高于SIMD。3. 游戏中的帧率必须是稳定的，因此在不同复杂程度的场景下的帧率稳定是挑战，游戏中的绘制必须在一个固定的期限里运行成功。：追求高效率，表现力和数学运算的正确性。

2023-07-06 21:01:25 375 1

原创 Transformer神经网络学习笔记——Seq2Seq模型和Transformer

此外，decoder首先处理的方式是masked multi-head attention，它和传统的self-attention的区别是某一向量对应的输出只会考虑之前序列的输入。而未来的数据虽然存在，但对decoder处理的当前时间点的数据来说是“不存在”的，而这种“预测”的输出模式这也是masked multi-head attention能输出长度不定的数据的基础。这种的问题就是上一位的输出可能是错误的，而这会导致接下来的输出连锁地出现错误，这也是autoregressive的缺点。

2023-07-05 20:37:28 1397 1

原创 Transformer神经网络学习笔记——基本介绍和自注意力机制

有三种可能，a.每个向量对应一个标签（标量或类别），可应用于在文字处理（如词性标注，给每个词标注其类别），语音处理（每段声音的音标划分），社交网络（每个用户的用户画像的构建）等方面；将每个词汇通过如One-hot Encoding（每个词汇都是一个特定编码，该方法缺点是向量无法表示词汇间的关系），Word Embedding（意义相近的词汇其向量相近）等方式转换成一个向量，这样文字处理问题就变为了大小不定的向量集处理问题。self-attention是可以叠加的，其可以与全连接层交替使用，使结果更加准确。

2023-07-05 19:46:58 506

qq_50199113的博客

原创 Is Space-Time Attention All You Need for Video Understanding?论文学习笔记

原创 End-to-End Video Instance Segmentation with Transformers论文学习笔记

原创 PolyDiffuse：Polygonal Shape Reconstruction via Guided Set Diffusion Models 论文学习笔记

原创 Diffusion扩散模型学习笔记

原创 Re:PolyWorld - A Graph Neural Network for Polygonal Scene Parsing论文阅读笔记

原创 GAMES104:AI篇3：高级AI

原创 GAMES104：AI篇2：人群模拟和基础决策算法

原创。GAMES104游戏开发笔记：AI——寻路算法篇

原创游戏开发笔记整理场景管理与碰撞检测

原创 games104现代游戏引擎学习笔记整理(06游戏中地形大气和云的渲染——天空篇)

原创 games104现代游戏引擎学习笔记整理(06游戏中地形大气和云的渲染——地形篇)

原创 games104现代游戏引擎学习笔记整理(05.渲染中光和材质的数学魔法)

原创 games104现代游戏引擎学习笔记整理（04.游戏引擎中的渲染实践）

原创 Transformer神经网络学习笔记——Seq2Seq模型和Transformer

原创 Transformer神经网络学习笔记——基本介绍和自注意力机制

原创 games104现代游戏引擎学习笔记整理（01~03）

原创 Connecting the Dots: Floorplan Reconstruction Using Two-Level Queries 阅读笔记

原创 End-to-End Object Detection with Transformers 论文解读笔记

原创 PointNet++阅读笔记

原创 PointNet阅读笔记

原创 Convolutional Occupancy Networks 论文阅读笔记

原创苹果深度学习三维重建新技术研究

原创 Automated 3D volumetric reconstruction of multiple-room building interiors for as-built BIM 论文阅读笔记

原创 A Novel Framework for 2.5-D Building Contouring From Large-Scale Residential Scenes论文阅读笔记

空空如也

空空如也