_企鹅_-CSDN博客

原创【论文精读】Language Conditioned Traffic Generation基于语言条件的交通生成

链接:是一个可以理解交通场景文本描述的 Transformer 语言模型，可以生成自然、逼真的车辆、行人以及其他交通参与者的行为，还可以根据已知的文本描述，预测交通参与者可能的位置以及它们在场景中的运动。模拟器是现代自动驾驶发展的支柱。模拟器有助于开发、测试和改进驾驶系统，而不会使人类、车辆或其环境面临风险。然而，模拟器面临着一个重大挑战：它们依赖于逼真、可扩展但有趣的内容。虽然渲染和场景重建的最新进展在创建静态场景资产方面取得了长足的进步，但对其布局、动态和行为进行建模仍然具有挑战性。

2024-10-13 21:32:07 1040

原创【论文精读】形式化方法概貌

形式化方法，中文也称形式方法、正规方法。在计算机科学和软件工程领域，形式化方法是基于严格的数学基础，通过采用数学逻辑证明来对计算机软硬件系统进行建模、规约、分析、推理和验证，是用于保证计算机软硬件系统正确性以及安全性的一种重要方法。形式化方法使用数学及逻辑证明的手段对计算机系统进行建模、规约、分析、推理，其主要涵盖以下几个研究方向：定理证明、形式模型、形式语义与形式建模、形式规约、形式验证技术。

2024-10-13 12:53:17 907

原创 Python和C++基础语法规则对比

Python使用=进行赋值，C++也使用=，但对于字符串需要使用std::string进行声明。Python不需要指定变量类型，会根据赋值自动确定类型，而C++需要明确指定变量类型。Python使用def定义函数，而C++使用void（表示无返回值）或其他返回类型。C++中使用std::cout进行输出，而Python使用print()函数。Python使用class关键字定义类，而C++也使用class。Python使用缩进来表示代码块，而C++使用花括号{}。Python使用def。

2024-04-12 11:22:25 353

原创 Github用户手册-逻辑增强版

②点击右上角的加号图标，选择“New repository”。④完成验证步骤，然后点击“Create account”。①使用git push命令将本地更改推送到远程仓库。①使用git pull命令从远程仓库拉取最新更改。③在本地终端使用git clone命令和URL。④点击“Merge pull request”。②使用git add命令将更改添加到暂存区。②点击页面右上角的“Sign up”按钮。②点击“Code”按钮，复制提供的URL。③使用git commit命令提交更改。

2024-03-24 03:14:57 519

原创 Sora时代，我们的AI应该何去何从?——关于Sora大模型的思考

而Sora的影响，不难想象。影视行业的演员道具等成本将会下降，而最为明显的影响，是影视特效。作为一位AI视频生成领域的爱好者，我始终坚信：对于AI技术的快速更迭，无论是相关传统领域的从业者还是AI技术领域的研究者，都需要秉承朝临烟霞而暮栖苍梧的开放思想，不能限于一地而终老此生。的确，大量的AI绘画侵占了市场，对于绘画市场产生了很大的冲击。因为Sora的生成能力和真实的渲染影视生成水平还是有一定差距，对于很多复杂的细节，并不能够有效地处理。一是对于传统的影视业，绘画业，模型业等产生大的冲击。

2024-02-16 21:50:25 963

原创 SORA：OpenAI最新文本驱动视频生成大模型技术报告解读

LLM有文本标记，而Sora有视觉补丁。我们将Sora与我们的模型的一个版本进行比较，该版本将所有训练视频裁剪为正方形，这是训练生成模型时的常见做法。在推理时，我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。因此，四个视频中的每个视频的开头都与其他视频不同，但所有四个视频的结局都相同。在下面的示例中，中心的视频在左侧和右侧的相应视频之间进行插值。我们相信，Sora今天的能力表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条很有前途的道路。

2024-02-16 21:02:09 2065

原创常见SQL语句速通

【代码】常见SQL语句速通。

2023-12-18 22:40:07 611

原创 vim命令速查

i：进入插入模式，可以在当前光标位置开始插入文本。a：在当前光标后面进入插入模式，可以插入新的文本。o：在当前行下方插入一行，并进入插入模式。O：在当前行上方插入一行，并进入插入模式。Esc：退出插入模式，返回到命令模式。:w：保存文件。:q：退出vim。:wq：保存文件并退出vim。dd：删除当前行。p：将之前删除的行或文本粘贴到当前光标位置。u：撤销上一次操作。Ctrl+r：重做上一次撤销的操作。yy：复制当前行。

2023-12-18 00:57:13 167

原创 Spring MVC与Spring Boot简单理解

假设你要制作一份披萨，那么可以将整个过程类比为开发一个Web应用程序。

2023-12-16 16:05:10 276

原创 MVC框架和Spring MVC的基本流程

MVC框架的原理是基于这种设计模式，将应用程序的开发和维护过程按照功能进行划分，提高了代码的可维护性、可扩展性和重用性。在这个比喻中，MVC框架就像是一个餐厅，服务员（Controller）负责接待顾客的请求并与厨师（Model）进行沟通，厨师根据服务员的指示准备食物，然后服务员将食物端到顾客（View）面前，顾客享用并提供反馈。Spring MVC作为MVC框架的一种实现，提供了一套简单而强大的工具和机制，使开发人员能够轻松地构建Web应用程序，实现请求的处理和页面的展示。顾客负责享用美食并提供反馈。

2023-12-16 15:57:03 187

原创 Tomcat和servlet关系

而Servlet就像一个信件，它是一个Java Web组件，用于处理客户端的HTTP请求并生成响应。类似于信件中包含了特定的信息，Servlet中也包含了特定的逻辑代码，用于处理客户端的请求并返回相应的结果。而Servlet就像一封信件，包含特定的逻辑代码，用于处理客户端的请求并生成响应。在Tomcat的帮助下，Servlet能够与客户端进行通信，并实现Web应用程序的开发和部署。Tomcat就像一个邮局，它负责接收来自客户端的HTTP请求（类似于邮件），并将请求转发给适当的Servlet进行处理。

2023-12-15 23:30:02 116

原创第四次工业革命：算力、芯片、晶体管，我们的算力从何而来？为什么需要突破芯片技术？（一）

然而，由于一些硬核发烧友具有伟大的开源精神，他们将一些上世纪的老芯片的版图，进行了复刻，上传到了Github上，我们才得以见到芯片版图的真容。现在，小到一次计算器的使用，刷一次短视频，回一条微信消息，大到训练一个大模型，制造一个大的云服务平台，都离不开算力。在不通电的情况下，由于源极和漏极掺入了不同的原子，对于源极和漏极，它们本身是导电的，但它们之间的区域并不导电。隐藏掉上面的部分（相当于电路中的导线），露出来的就是最核心的计算部分，也就是——晶体管。我们生活中的许多运算设备其实都是二进制的。

2023-12-11 13:38:48 544

原创计算机视觉（六）图像分类

没有池化过程变得很深先降维再升维亮点在采用了残差的机制。

2023-08-01 15:54:57 792

原创计算机视觉（五）深度学习基础

通道数没变，尺度大小变了。

2023-07-31 01:04:59 491

原创计算机视觉（四）神经网络与典型的机器学习步骤

每个神经元都是一个结构相似的独立单位，接受前一层传来的数据，并将这些数据的加权和输入非线性作用函数中，最后将非线性作用函数的输出结果传递给后一层。一种有监督学习算法。根据神经元的实际输出与期望输出差别来调整连接权。神经网络：大量神经元节点按一定体系架构连接成的网状结构——大脑结构。人工神经网络的一种，无反馈，可用一个有向无环图表示。深度学习是对神经网络模型的拓展。

2023-07-28 22:51:22 893

原创【论文精读】VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation

VideoFusion[1] 是阿里达摩院在今年3月提出的一种新的基于 DPM 的视频生成方法。和之前的一些视频生成方法（Imagen Video、Make-A-Video等）相比，VideoFusion 摒弃了常见的 spatial/temporal super-resolution 方法，完全使用 DPM 来做图像和视频序列的生成。此外，VideoFusion 相关的模型和代码也在达摩院的 ModelScope 上进行了开源[2] ，可以直接在网页上直接实现相关的 demo。

2023-07-26 16:08:14 622 4

原创计算机视觉（三）未有深度学习之前

基于边缘：边界线上连续的像素点集合，是图像局部特征不连续性的反映。体现灰度、颜色、纹理等图像特征的突变。基于阈值：基于图像灰度特征计算一个或多个灰度阈值。将灰度值与阈值比较，最后将比较结果分到合适的类别中。

2023-07-25 11:51:02 1040

原创计算机视觉（二）图像特征提取

像素值函数快速变化的区域->一阶导数的极值区域。

2023-07-24 12:50:15 648 1

原创计算机视觉（一）图像预处理

加和必须为0。

2023-07-21 15:34:37 619

原创多模态预训练技术Alicemind2021

多模态预训练技术Alicemind2021

2023-07-19 14:40:02 69

原创 wsl2与vmware不能共存原因及解决方法

若要继续使用VMWare那么需要再禁用这条命令 Disable-WindowsOptionalFeature -Online -FeatureName VirtualMachinePlatform ，重启电脑后VMWare又可以使用了.在打开的功能列表中如果有Hyper-V，去除勾选，点确定。第一种方法：打开桌面控制面板图标,查看方式选择大图标或者小图标，选择程序和功能。在服务列表中，找到Hyper-V虚拟机管理，双击，启动类型改为手动。WSL2需要hyper-v，而VMWare不支持hyper-v。

2023-07-07 09:40:40 6234

原创 wsl2内核版本和模块版本不一致解决方法

** /lib/modules/…build: No such file or directory错误解决办法这篇文章历时1个月整，从4月5日一直到5月5日，这一问题才得以解决。

2023-05-05 17:48:22 2821

原创【论文精读】Text-To-4D Dynamic Scene Generation

用动态的4D nerfText-to-video保证运动一致性整体上看，是用2D的生成器去蒸馏4D的重建存在问题：①动态3D场景快速生成 end-to-end②先用T2I生成静态的3D图像，SDS loss和motion regularizers（运动的约束）③时间超分模型，提升分辨率。

2023-04-23 15:31:26 408

原创 Overleaf+Latex5分钟快速入门

本文介绍如何在Overleaf中使用Latex编写论文。Overleaf：一款强大的在线多人协作论文编写软件（网址）Latex：一种论文排版语言，使用该语言直接构建.tex文件，保证论文排版。Overleaf网址：国际版链接:国内版链接:功能无差别，推荐国内版，国际版国内常常用不了。

2023-03-29 17:22:03 1478

原创【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

由于T2I的成功，近日T2V的方法在大量的T2I的数据集中加入fine-turning.我们试图给出一个One-Shot Video Generation。1、产生图像与动词对齐。2、扩展文本到图像的模型，同时生产多张图片。作者提出Turn a video的方法，高效的fine-turn翻译成2D的扩散模型，通过文本生成视频。改变元素、背景或者风格的转换。

2023-03-23 17:36:00 2893 3

原创【论文精读】MAKE-A-VIDEO:TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA

1.学习这个世界看起来是什么样的符合文本-图像对的描述2.学习这个世界是如何运动的无监督视频序列make video的三个好处:①加速了训练过程，不需要从头开始训练视觉或多模态的表示.②不要求成对的文本-视频数据③继承了图像生成模型的vastness(广度)基于T2I，使用一个新的时间空间模块，实现T2V。1、首先，解码了U-NET和attention tensors。2、第二，设计了时空的pipeline去生成一个高帧率高分辨率的视频。

2023-03-23 12:46:43 1331 2

原创 win10中wsl升级为wsl2的步骤

下载地址：链接: https://wslstorestorage.blob.core.windows.net/wslblob/wsl_update_x64.msi（1）用指令查看当前子系统的版本号，你可能有多个系统此时，如果VERSION等于1，则需要继续执行下面命令。（2）执行升级指令，其实执行这一条指令就行注意右边Ubuntu-20.04 2需要与（1）中Name保持一致。（3）确认升级成功此时，VERSION应为2（4）将WSL 2设置为默认版本，以后下载安装的ubnutu默认就是wsl2，也

2023-03-21 23:01:45 5038

空空如也

空空如也