- 博客(26)
- 收藏
- 关注
原创 数据挖掘复习(二)
现实生活中的数据往往是dirty的,包含了数据缺失,数据错误等,对质量较差的数据进行数据挖掘,通常不能获得一个好的pattern,因此preprocessing十分重要。
2023-11-17 21:43:21 143
原创 TRAINING-FREE STRUCTURED DIFFUSION GUIDANCE FOR COMPOSITIONAL TEXT-TO-IMAGE SYNTHESIS
归因绑定和合成能力是目前大模型遇到的主要问题,尤其在面对多个对象时。window11怎么关闭触摸板基于扩散模型中操纵交叉注意力层的可控特性,将语言结构和扩散引导过程相结合跨注意力层中的键和值具有与对象布局和内容相关联的强语义。基于SOTA T2I模型Stable Diffusion,我们的结构化交叉注意力设计是高效的,需要额外的训练样本。
2023-06-26 21:58:04 242
原创 Multi-Concept Customization of Text-to-Image Diffusion
提出自定义扩散,只需要优化文本到图像调节机制中的几个参数就足以表示新概念,同时实现快速调整(6min)可以针对多个概念进行联合训练,获通过闭式约束优化将多个微调模型组合为一个。提出一种微调技术,用于文本到图像扩散模型的自定义扩散,确定一小部分模型权重,即从文本到交叉注意力层中潜在特征的关键和值映射。基于stable diffusion建立了该方法。方法只需要存储一小部分参数(模型权重的3%),并减少了微调时间(在2个A100 GPU上6分钟,与并行工作相比快2−4倍)。
2023-06-26 15:46:47 506
原创 Dreamix: Video Diffusion Models are General Video Editors
扩散模型已经广泛的应用于图像编辑,但是却很少用于视频编辑,提出了一种基于扩散模型的方法,能够对普通视频进行基于文本的运动和外观编辑。同时介绍了一种新的图像动画框架,通过将图像转为视频,然后使用视频编辑器进行动画处理。
2023-06-26 14:37:48 346
原创 Make-a-story Visual memory conditioned consistent story generation
用于生成高质量图像的模型往往依赖于条件语句,需要对场景和主要人物进行明确的描述。将这样的模型用于更复杂的故事可视化任务,其中自然存在引用和共引用,并且需要根据故事进展来思考何时保持演员和背景在帧/场景之间的一致性,何时不保持一致性,仍然是一个挑战。提出了一种新的基于自回归扩散的框架,该框架具有视觉记忆模块,该模块隐式地捕捉生成的帧中的演员和背景上下文。
2023-06-26 10:28:14 165
原创 Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
首先在图像数据集上训练LDM,同时将时间维度引入latent space,并对编码的图像序列进行微调,从而健图像生成器转变为视频生成器。高分辨率真实单词驾驶数据视频合成;创意内容生成的文本引导视频合成在LDMs基础上提出,将LDM扩展到高分辨率视频生成。通过将时间维度引入潜在空间,在编码的图像序列上训练这些时间层,同时固定预先训练的空间层。引入时间微调前,生成视频中的图片是独立的,引入微调之后生成的图片便是视频序列。通过微调解码器实现空间中时间的一致性。
2023-06-26 09:20:11 957 1
原创 Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
最近的文本到视频生成方法依赖于计算量大的训练,并且需要大规模的视频数据集。介绍了一种新的零镜头文本到视频生成任务,并通过利用现有文本到图像合成方法(例如稳定扩散)的力量,提出了一种低成本的方法(无需任何训练或优化),使其适用于视频领域。
2023-06-25 21:58:29 302
原创 IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS
提出一种基于级联的视频扩散模型,将基于扩散的图像生成模型以及渐进蒸馏应用于该模型中。该工作总将64帧128128的视频扩展为128帧1280768的视频,每秒24帧播放。主要架构包含了T5文本编码器,一个基础视频扩散模型,以及交错空间和时间超分辨率扩散模型。
2023-06-25 20:52:35 640
原创 MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA
1.加速了T2V的模型训练,2. 不需要文本视频数据分解全时间U-Net(空间)和注意力张量(时间),在时间和空间上进行近似。设计了一个时空管道,通过视频解码器、插值模型和两个超分辨率模型生成高分辨率和帧速率视频,这些模型可以实现除T2V之外的各种应用。
2023-06-25 16:56:18 347
原创 事件相机学习记录
事件相机与传统相机不同,它异步地测量每个像素的亮度变化,并输出一系列事件流,编码亮度变化的时间、位置和符号。事件相机有着很高的时间分辨率和低延迟,同时有着非常高的动态范围(60dB,140dB),并且有着很低的功耗。
2023-03-15 17:40:15 407
原创 GOOD: A global orthographic object descriptor for 3D object recognition and manipulation论文阅读
提出一种新的特征描述方法(GOOD),通过分析点云,获得特征向量的唯一参考系。
2023-03-14 23:10:08 115 1
原创 Explain What You See: Open-Ended Segmentation and Recognition of Occluded 3D Objects
Local-HDP对于高度遮挡的物体检测的鲁棒性较差,提出一种新的3D物体的分割方法,将次方法与在线增量学习相结合,从而处理高度遮挡的物体。利用分割结果生成的标签辅助物体的识别。
2023-03-12 23:08:35 76
原创 Local-HDP: Interactive open-ended 3D object category recognition in real-time robotic scenarios
提出一种开放式的无参数层级贝叶斯方法用于3D目标分类(Local-HDP),该方法能够增量地学习每个物体对应的独立的话题,同时能够适应环境。Motivation:在LDA-based的方法中,话题的数量需要人工手动的设置,固定的话题数容易造成模型过拟合,在Local-HDP中能够自动的对每个物体的话题数进行调整。
2023-03-12 12:54:07 63
原创 SESS: Self-Ensembling Semi-Supervised 3D Object Detection论文阅读及理解
3d检测通常以来目标的标签和注释,然而获得这些注释是十分困难的。SESS一种自集成的半监督三维目标检测框架。设计了一种扰动方案,加强对未标记数据和新的为可见数据的泛化。提出三种一致损失(consistency loss),加强两组预测三维目标提议之间的一致性。半监督学习的方式,通过一个混合标签的数据和为标注的数据进行训练。
2022-11-24 15:18:34 695 1
原创 PCT: Point Cloud Transformer论文阅读及理解
点云数据的不规则和无序性是的用神经网络处理变得很困难。PCT是基于Transformer。为了更好的获得点云局部的联系,采用了最远点采样和最邻近搜索。
2022-11-21 17:27:15 1424 4
原创 Static-Dynamic Co-teaching for Class-Incremental 3D Object Detection SDCoT论文理解笔记
3D目标检测在类增时,在不访问就数据的情况下往往会产生灾难性遗忘,提出一个动静态教学的方案,通过静态教师模型为旧类提供伪标签的方式以及通过提取具有蒸馏损失的先前知识来正则化当前模型来减轻遗忘,动态教师模型对新的知识进行学习。
2022-11-20 23:39:54 412
原创 Generative Sparse Detection Networks for 3D Single-shot Object Detection稀疏检测网络(GSDN)
稀疏检测网络(GSDN),这是一种完全卷积的单帧稀疏检测网络,可以有效地生成对对象提议的支持。模型重要组成部分事一个稀疏的张量编码器,使用了转置卷积以及修剪层,丢弃了概率小的对象中心,以减小运行的时间和占用的内存。
2022-11-16 20:22:11 1415
原创 RNN学习
RNN是一类具有短期记忆能力的神经网络。在该神经网络中,神经元不仅可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。
2022-11-15 13:34:26 277
原创 EWC:Overcoming catastrophic forgetting in neural networks论文笔记
EWC论文学习笔记
2022-11-12 15:16:23 481 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人