华山菠萝吹雪-CSDN博客

原创大模型-Sora技术解读

借鉴Vit中patch的格式，对标GPT中token的形式，统一互联网不同大小格式的视频与图像数据为patches的格式输入，具有可拓展性，能匹配模型结构，能控制生成尺寸。训练阶段，视频按照1帧或间隔n帧用DALLE3（CLIP）形成对应描述文本（tex-video），再输入模型。3D一致性：能生成具有动态摄像机运动的视频，随着虚拟摄像机的运动，人物和场景在三维空间保持一致。文本的token是离散化的，但视频是连续的。Sora与之前的方法很大的不同是使用DiT，参考自回归进行训练，但是否使用插帧不确定。

2024-04-26 10:21:23 1255 1

原创论文阅读-DiT：Scalable Diffusion Models with Transformers

提示：以下是本篇文章正文内容，下面案例可供参考探索了一类基于Transformer架构基础上的扩散模型。用Transfomer架构替换之前的U-Net，通过增加transformer的深度/宽度或input tokens实现比之前所有扩散模型更优秀的表现。Transformers推动了机器学习的复兴，过去NLP，CV以及其他许多领域都受影响很大。但图像级生成任务还没有太多应用。扩散模型是图像级生成方法的主流解决方案，不过都是基于U-Net的。

2024-04-14 21:17:28 1198 1

原创轻松玩转书生·浦语大模型趣味 Demo-笔记2

鼓励大家在Github上star。

2024-04-10 21:19:44 383 1

原创论文阅读：FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估计

提出FoundationPose，能用于6D位姿估计与跟踪，无论模型是否可用都支持。只需要CAD模型或少量参考图像就能进行zero-shot测试，泛化能力依靠大规模训练，LLM和对比学习，达到实例级效果。（通过这张对比图，能简单看出本方法爆杀之前的各种方法，且能执行多种任务，不难看出大模型让各领域都趋向于多任务统一化。将实例级位姿估计归类为传统方法：需要依靠CAD模型生成训练数据，且无法应用到新物体（unseen novel object）。

2024-04-07 22:01:32 2550 1

原创书生浦语大模型课程1-笔记

帮助进行有想象力的创作，如剧本等；此外模型能通过不同工具的组合使用完成较复杂的任务。通过图片能看出，大模型由专用模型向多任务多模态的通用大模型发展。通用大模型是通用人工智能的必经之路。语言建模本质需要有高质量的数据，故提出新一代数据清洗过滤技术。不同参数量规模的模型都包含右侧三个版本，推荐在Base基础上实现自己需求方向的搭建。开源了免费商用的模型版本，后续更新了各种参数量的模型，并在今年开源了二代版本。总之，能看出全链条生态都发展比较完善，而不只是大模型的预训练。对于视觉，语音，多模态等都有支持。

2024-04-07 09:13:38 486

原创大模型论文阅读系列2-SAM：Segment Anything

ICCV2023Segment Anything，分割一切，Meta团队2023年引起巨大反响的工作，将预训练语言模型的思想与架构引入视觉领域。论文入目能看到的这张图简单的概括了 What is SAM:任务，模型以及数据。其中任务部分最重要的是，如何将分割设计成像NLP一样的能通过使用prompt进行的任务。摘要：介绍本文的贡献，建立了至今最大的分割数据集（果然大模型时代，data is all you need.），数据集包含超过十亿个掩码。SAM代码。介绍。

2024-04-06 21:02:03 1098 1

原创大语言模型微调框架学习记录：LoRA、全参数、PEFT、RLHF

讲一些基本概念内容，和之前的猜测不太一样大概可以将它理解为类似机器学习中pipeline的东西。是一个开源工具库，专注于构建和研究基于语言模型的应用。它提供了一套工具和接口，用于方便地在大型语言模型，如GPT-3或其他类似模型上，构建、测试和部署基于语言的应用程序。LangChain 旨在使研究人员和开发人员能够更容易地探索和利用大型语言模型的能力，尤其是在自然语言理解和生成方面。

2024-04-01 10:05:53 4109 1

原创 ChatGLM-6B 微调：P-Tuning，LoRA，Full parameter 学习

清华大学团队，开源。ChatGLM-6B目前在GitHub中star数已超3.8万。2022年11月的斯坦福全球主流大模型测评中，GLM-130B是亚洲地区唯一入选的，表现不错。ChatGLM是千亿级别，ChatGLM-6B是60亿参数。官方教程。

2024-03-31 17:23:14 1089 1

原创大模型论文阅读系列-GLM: General Language Model Pretraining with Autoregressive Blank Infilling

首先提到目前三大预训练架构：自动编码模型-如Bert、自回归模型-如GPT以及编码器-解码器架构-如T5，以及三个主要任务：自然语言理解、单向生成和双向生成。现有的架构无法再所有任务中都表现优秀。于是本文提出解决方法：GLM，一个通用语言模型。GLM通过2D位置编码提升空白填充预训练，可以改变预测跨度与空格长度。讲了点基础知识：GPT：参数量大之后，在长文本生成，以及few-shot学习能力上表现都很突出。但单向生成导致不能更好地利用上下文信息。（解码器输入是token）

2024-03-30 20:12:20 1335 1

原创刘知远大模型学习笔记-Delta Tuning

Prompt Learning对于位置任务不太适用，但是认为可以用于多模态。也就是图片与文本理解。Delta Tuning核心思想：绝大多数参数不变，只微调一小部分模型，优化特别少参数。也就是把解决任务抽象为一小部分参数（Delta Objects）。有了预训练大模型，这类方法才有用。分类：Addition，增量式；Specification，指定式；Reparameterization，重参数化式（现在超级常用的LoRA)。提示：以下是本篇文章正文内容，下面案例可供参考。

2024-03-27 21:35:10 670

原创刘知远大模型学习笔记-大模型微调（fine-tune）

由Hugging Face提出，包括许多预训练大模型，能够通过pipeline轻松实现部署应用，我在VSCode中通过虚拟环境实现，需要先pip install transformers。

2024-03-27 10:39:54 858

原创【无标题】

记录一下nvidia docker运行命令：

2023-10-31 09:30:22 71 1

原创 linux软链接创建

ln -s 已有数据库目录要复制到的目录。

2023-07-17 16:45:46 98 1

原创【无标题】

在网络和Internet-高级设置-更多网络适配器选项中，对于要操作的Wlan右键属性取消选择一些选项就好了，如图不选这五个。1.使用网络疑难自动解决，没有效果。无法修复问题，并显示可能是网络适配器的驱动程序存在问题。把Win11系统更新后突然无法上网，无论是wlan连接还是手机热点都用不了。2.在管理器中检查适配器的驱动，发现是完好的，且都是最新的驱动。3.卸载更新并重启。

2023-03-30 19:26:33 195