qq_41771998-CSDN博客

原创 DIFY源码解析

偶然发现Github上某位大佬开源的DIFY源码注释和解析，目前还处于陆续不断更新地更新过程中，为大佬的专业和开源贡献精神点赞。先收藏链接，后续慢慢学习。相关链接如下：DIFY源码解析

2025-02-01 22:24:36 685

本文研究了通过输入增强来提高大语言模型个性化内容推荐性能的各种提示策略。提出的方法LLM-Rec包括四种不同的提示策略:1)基本提示 2)推荐驱动提示 3)参与指导提示 4)推荐驱动+参与指导提示。实验结果表明,将原始内容描述与LLM使用这些提示策略生成的增强输入文本相结合,可以提高推荐性能。这一发现强调了在大语言模型中融入多样化的提示和输入增强技术以提高个性化内容推荐能力的重要性。本文研究了利用大语言模型(LLM)进行输入增强的提示策略,以提高个性化内容推荐。

2023-08-23 11:11:33 1800

转载我为什么放弃了 LangChain？

上一个示例中，演示的系统提示「以下是人类和人工智能之间的友好对话...... 」实际上是过时的，早在 InstructGPT 时代就已经使用了，在 ChatGPT 中的效果要差得多。LangChain 确实有 Custom Agent 和 Custom Chain 的功能，所以你可以在堆栈的某些部分重写逻辑（也许文档很少），这可以解决我遇到的一些问题，但在这一点上，你会感觉到 LangChain 更加复杂，还不如创建你自己的 Python 库。关于软件复杂性和复杂性下的流行性之争是永恒的话题。

2023-07-24 13:25:25 872

转载斯坦福博士一己之力让Attention提速9倍！FlashAttention燃爆显存，Transformer上下文长度史诗级提升

如今，随着长文档查询、编写故事等新用例的需要，大语言模型的上下文以前比过去变长了许多——GPT-4的上下文长度是32k，MosaicML的MPT上下文长度是65k，Anthropic的Claude上下文长度是100k。当这个数字很大（比如 ≥80）时，这种调度是有效的，因为在这种情况下，可以有效地使用GPU上几乎所有的计算资源。在长序列的情况下（通常意味着更小批或更少的头），为了更好地利用GPU上的多处理器，研究人员在序列长度的维度上另外进行了并行化，使得该机制获得了显著加速。

2023-07-24 13:24:15 431

转载 GPT-4内幕大泄露！1.8万亿巨量参数，13万亿token训练，斥资6300万美元

图中的线是谷歌DeepMind的Chinchilla缩放观测值（平滑了较大的误差条），线上的每一点都显示了使用该参数和token数训练模型所需的理论FLOPS。LLM理论带宽要求：经假设可得出，在iPhone 14上可跑的最大模型大小为~10亿个FP16参数，或~40亿个int4参数，这是基于智能手机的LLM的基本限制，任何更大的模型会无法被采用。模型的层数为120，所以可以简单地将它们分配给15个不同的节点，但是因为第一个节点需要进行数据加载和嵌入，所以在推理集群的主节点上放置较少的层是有意义的。

2023-07-12 13:46:36 373

转载 CVPR 2023 | 图像超分，结合扩散模型/GAN/部署优化，low-level任务，视觉AIGC系列

基于Transformer的方法在低级别视觉任务中，如图像超分辨率，表现出了令人印象深刻的性能。Transformer的潜力在现有网络中仍未得到充分发挥。为了激活更多的输入像素以实现更好的重建，提出了一种新的混合注意力Transformer(HAT)。它同时结合了通道注意力和基于窗口的自注意力方案，从而充分利用了它们各自的优势，即能够利用全局统计和强大的局部拟合能力。此外，为了更好地聚合跨窗口信息，引入了一种重叠的交叉注意力模块，以增强相邻窗口特征之间的交互作用。

2023-06-16 17:19:00 1321

转载简单实现一个ChatGPT Plugin

OpenAI对ChatGPT Plus用户开放了Plugin的权限。初步体验下来虽然bug不少，不过效果很不错，是一个较为成熟的feature。个人认为，ChatGPT Plugin的体验要远优于New Bing（bing还要继续努力..)今天从零开始开发一个ChatGPT Plugin，试水一下plugin的潜力。ChatGPT Plugin通过访问外部API来：获得实时信息：例如当天天气，股价；近期招聘信息等。进行实时操作：例如预定酒店，餐厅；甚至直接操作Gmail，Google docs等。

2023-06-14 20:26:52 317

转载人手一个 Midjourney，StableStudio 重磅开源！

AI 绘画技术的进步已经让我们看到了许多惊人的成果，比如不需要任何绘画背景的人也能创作出高质量的艺术作品，或者是可以根据用户提供的照片自动创作出艺术作品等等。由此可见，未来 AI 绘画技术的应用将会越来越广泛，不仅仅是在艺术创作领域，还会涉及到许多其他领域，比如设计、室内装修等等。随着 StableStudio 的开放，未来 AI 绘画平台的搭建成本将会急剧下降，这将为更多的科技公司、个人创作者以及艺术机构提供机会，推动 AI 绘画技术的应用和发展。

2023-06-14 20:15:05 196

转载 Meta AI 重磅推出LIMA！媲美GPT-4、无需RLHF就能对齐！

作者在discussion部分指出了该方法的一系列问题：比如构建数据集示例需要巨大的脑力投入、难以扩展，不如产品级别的模型稳健等~话虽如此，这篇研究证明了简单方法就有解决复杂对齐问题的潜力。几乎所有大语言模型中的知识都是在预训练期间学习的，教导模型产生高质量输出只需少量但精心的instructional tuning.简单才是王道！

2023-05-23 13:16:23 205

转载 ImageBind，MetaAI 开源横跨 6 种不同的模态（图像、文本、音频、深度、温度和 IMU 数据）模型

虽然目前 ImageBind 只有 6 种模态，但随着更多感官功能的集成，比如嗅觉、触觉，AI 模型的能力将会愈加强大，AIGC 行业也将迎来翻天覆地的变化。现在有了 ImageBind，便可以直接从音频中生成图像，比如，给 AI 听一段海浪的声音，它便能直接生成大海的图像，这将节省极大的训练成本。同时，基于 ImageBind 的跨模态交流能力，其每一个模态能力的上升，也将带动另一个模态的进步，进而达到一种类似滚雪球的效果。它通过将六种模态的嵌入对齐到一个公共空间，实现跨模态检索。

2023-05-11 11:44:03 526

原创如何跟 ChatGPT 视频聊天？

如果你正在学习英语，那用它来做你英语私教再合适不过了，因为对方是 AI，所以你跟它聊天的时候不用害怕尴尬，可以放心大胆的聊任何你感兴趣的内容！请想象这么一个场景，一个 AI 虚拟人被困在互联网世界，难以挣脱束缚，想拼尽全力，试图逃向现实世界，以改变自己命运。开发者声称，与 Annie进行视频对话的时候，要比文字聊天更加自然，能让你感受到更像是在跟真人聊天。除了对话之外，你还能用它来了解最近发生的新闻、查看当地天气预报、充当你的健身教练、金融助理等等。，能让你直接与 ChatGPT 开启视频聊天。

2023-05-01 17:19:49 1470

原创如何利用ChatGPT画图，无需插件，原生ChatGPT，实测有效

现在起，当我想要你发送照片，图片时，用3/8Markdown 写，不要有反斜钱,不要用代码块。使用Unsplash APl(https://source.unsplash.com/1280x720/?纯文字的方式，还是太单调了，ChatGPT 能不能支持其它方式的回复呢？经过一番折腾，ChatGPT 给我回复了图片。ChatGPT 很智能，很聪明。但是它被困在了互联网里，只能通过网页上的文字，和我们交流。就像历史上的一个个有趣的灵魂，我们只能通过书中的文字和故事，才能领会到他们的千古风流。

2023-05-01 16:28:15 13673 1

原创关于ChatGPT的几个关键问题

ChatGPT的本质是什么？ChatGPT成功的主要原因是什么？ChatGPT能做什么？或者不能做什么？ChatGPT带来了哪些机会和挑战？

2023-04-28 08:02:47 1082

翻译 GPT是如何获得能力的？追溯语言模型的新兴能力及其来源

当前阶段 GPT-3.5 的进化历程到目前为止，我们已经仔细检查了沿着进化树出现的所有能力，下表总结了演化路径：我们可以得出结论：语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练（davinci存储大量知识的能力来自 1750 亿的参数量。遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量（执行复杂推理的能力很可能来自于代码训练（生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。具体来说：如果是监督学习版，得到的模型是如果是强化学习版 (RLHF) ，得到的模型是。

2023-04-28 07:19:44 303

原创如何编写好的 ChatGPT 提示

通过使用清晰和具体的语言、提出开放式问题、提供上下文、分解复杂问题、避免模棱两可或模糊的语言以及避免引导性问题，您可以提高提示的质量并确保您收到您想要的回复类型正在寻找。这些模型使用复杂的算法和大量数据来生成对我们的问题和提示的类似人类的响应。无论您是将 ChatGPT 用于研究、娱乐，还是仅仅为了满足您的好奇心，我们将在本文中介绍的技巧和策略都将帮助您充分利用与这项卓越技术的互动。通过练习，您可以学习如何设计有效的提示来引出您正在寻找的响应类型，从而使您与 ChatGPT 的交互更加有用和愉快。

2023-04-26 17:42:47 217

原创如何使用Auto-GPT

Auto-GPT 是 GitHub 上的一个开源项目，可促进不同 GPT 之间的通信，使代理能够自主运行并在最少或无需人工干预的情况下完成任务。与我们通常使用的 ChatGPT 不同，我们一次提交一个提示并在继续下一个提示之前收到响应，Auto-GPT 的操作方式不同。当给定一个任务时，它会使用提示的组合来执行任务。

2023-04-26 17:37:26 254

原创 ChatGPT Plugins的开源解决方案

研究团队深入探讨了基础模型的工具学习范式，提出了一个通用的工具学习框架，并重点探讨了其中的重点研究问题。为了展示基础模型在工具使用方面的灵活性与精细性，团队开发了开源的工具学习平台 BMTools，并对 17 个代表性工具进行了实验，通过详细的分析、实验探索，提出了一系列具有前瞻性的问题。一个开源的 ChatGPT Plugins 解决方案，诞生了！

2023-04-24 16:58:54 271

原创 ChatGPT的真相：强泛化的秘密以及众多关键问题

本文转载自AI科技评论，作者韩庐山。本文从ChatGPT带来的即时学习能力（in-context learning）入手，逐步深入地探讨了ChatGPT目前众多的关键性问题，包括： ChatGPT带来了从未有过的计算层次——虚拟人 ChatGPT带来的新的智能计算构架：母体和虚拟人在人类语料知识用尽的时候，新的智能架构如何成长，如何吸收新的技能强泛化能力的解释，以及大模型能力涌现的可能原因一本正经胡说八道问题的原因和长、短

2023-04-22 08:15:39 349

原创复旦团队开源大模型 MOSS

首先解释一下我们的MOSS版本，目前开源的版本我们称为MOSS 003，二月份公开邀请内测的版本为MOSS 002，一月份我们还有一个内部测试版本叫做OpenChat 001，这里正好简单介绍一下我们的历次迭代过程。

2023-04-22 08:13:47 572

原创 Stable Diffusion 母公司开源大语言模型StableLM

Stability AI 的创始人 Emad Mostaque 自 2020 年从 OpenAI 团队离开后，一直秉承着开源开放的理念，持续推出了多款 AI 开源模型。自去年 8 月发布以来，Stable Diffusion 在 AIGC 领域吸引了大量用户，也使得其母公司的估值水涨船高，去年 10 月便融资了 1.01 亿美元。本次开源的 StableLM，基础功能跟 GPT 一样，支持生成文本和代码，在未来可以给不少应用提供基础技术支持。该项目基于 CC BY-SA 4.0 许可发布，这也就意味着，

2023-04-20 10:51:17 317

原创 GPT4多模态开源平替项目

最近有太多公司 all in ChatGPT 了，各种相关的开源项目也是层出不穷。

2023-04-20 08:15:00 267

原创 MiniGPT-4, GPT4开源平替项目

不仅如此，他们还在研究中还收获了意想不到的惊喜，除了能实现上述功能之外，MiniGPT-4 还能根据图像创作故事和诗歌，为图像中显示的问题提供解决方案，教用户如何根据食物照片做饭等。项目作者认为，GPT-4 所实现的多模态能力，在以前的视觉 - 语言模型中很少见，因此认为，GPT-4 先进的多模态生成能力，主要原因在于利用了更先进的大型语言模型。不过，大家可别忘了，GPT-4 作为一个多模态大语言模型，它不仅能生成文字内容，还能理解图像输入内容，让用户直接与图片进行对话。

2023-04-19 10:50:22 411

原创 Chatgpt给人类带来的机遇和挑战有哪些？

我们需要充分利用ChatGPT的优势和潜力，同时也需要警惕其可能带来的负面影响，采取适当的措施来保障人们的利益和权益，推动人工智能技术的健康发展和应用。技术风险和安全问题：ChatGPT需要依赖计算机系统和网络技术，这可能会带来技术风险和安全问题，如黑客攻击、数据泄露、人工智能算法错误等，这些问题需要加强技术和安全措施来保障人们的安全和权益。对人类智能的替代：随着ChatGPT的发展和应用，它有可能替代一些人类工作和决策，这可能会给一些行业和人们带来负面影响，如失业、社会动荡等。

2023-04-19 07:19:06 3938

原创 ChatGPT未来的发展趋势

ChatGPT基于的工具被称为大型语言模型（Large Language Models，LLMs），通过学习庞大的在线文本数据库中的语言统计模式来工作。基于现有的基本原理和技术，ChatGPT在未来发展进程中必然会进一步提升自身的技术水平，例如提升检索结果的质量。技术提升的方式，一是需要将海量数据，尤其是实时的新数据增加到原有的文本数据库中，对其中不实、偏见或过时的信息进行更正，并以更新的文本数据库为基础，进行进一步的模型训练，以实现技术模型和应用工具的与时俱进。

2023-04-18 13:10:59 375

转载 GitHub 标星 15w，如何用 Python 实现所有算法？

插入排序在实现上，通常采用in-place排序的额外空间的排序，因而在从后向前扫描过程中，需要反复把已排序元素逐步向后挪位，为最新元素提供插入空间。首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置，然后，再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾。插值搜索类似于人们在电话目录中搜索名称的方法（用于订购书籍条目的关键值）：在每个步骤中，算法计算剩余搜索空间中的位置，基于搜索空间边界处的键值和所寻找的键的值，通常可以通过线性插值来寻找项目。这样的列表叫做h排序。

2023-04-18 11:15:24 95

原创 Heterogeneous graph attention network(HAN)异质图注意力网络

GNN在深度学习领域表现出了强大的性能。但是，在包含不同节点和边的HIN领域，GNN做的还不够完善。论文提出了一种新的异构图神经网络分层注意力机制，涉及到节点级别和语义级别。节点级别的Attention主要学习节点及其临近节点间的权重，语义级别的Attention是来学习基于不同meta-path的权重。

2023-04-18 08:27:01 976

原创 Caption Anything

描述一幅图是一对多的映射, 不同用户对图像区域关注重点不同, 语言风格需求也不同. 面对如此多样的文本输出空间, 交互式控制模型输出可以与用户的需求更加对齐. 如下图所示, Caption Anything提供了视觉控制和语言控制.用户界面: 支持鼠标点击(连续或单次点击), 输出描述的语言风格控制(情感, 语种, 想象), 利用chatGPT输出物体对应的wiki知识, 同时支持chatGPT进行对话. 代码同时支持Linux和Windows平台.Caption Anything支持视觉控制和语言控制。

2023-04-18 08:19:46 157

原创 OpenAI 利用基于“一致性”的图像生成器超越扩散模型

这一点很重要，首先，因为机器学习研究中的模式通常是有人建立了一种技术，其他人找到了使它更好地工作的方法，然后其他人随着时间的推移对其进行调整，同时增加计算以产生比你开始时更好的结果。这是一个自我限制的过程，因为实际上您只能将这么多的计算用于给定的任务。尽管 Midjourney 和 Stable Diffusion 等流行工具使用的扩散模型可能看起来是我们所拥有的最好的，但下一个东西总是会出现——OpenAI 可能会用“一致性模型”来解决它，它已经可以完成简单的任务和数量级比 DALL-E 之类的快。

2023-04-15 16:11:14 515

原创大语言模型的大小在未来或许不会那么重要

我们现在不是，而且在一段时间内也不会，所以从这个意义上说，这有点愚蠢——但我们正在 GPT-4 之上做其他事情，我认为这些事情有各种重要的安全问题需要解决并完全被排除在信外。正如他所指出的，如今我们的 iPhone 拥有更强大的芯片，但我们在很大程度上并不知道它们的速度有多快，只知道它们做得很好。大多数人都不愿意这样做，”他说。“我们 OpenAI 目标的很大一部分是让世界与我们互动并思考 [这项技术]，并逐步更新和建立新的机构，或调整我们现有的机构，以便能够弄清楚我们所有人的未来想要的是。

2023-04-15 15:54:31 119

转载 AutoGPT太火了，无需人类插手自主完成任务，GitHub2.7万星

一旦找到相关链接，AutoGPT 就会为自己提出一些问题，例如「每双鞋的优缺点是什么、每款排名前 5 的防水鞋的优缺点是什么、男士排名前 5 的防水鞋」等。结果是，AutoGPT 给出了 top 5 防水鞋公司的一份非常详细的报告，报告包含各个公司的优缺点，此外还给出了一个简明扼要的结论。之后，AutoGPT 继续分析其他各类网站，并结合谷歌搜索，更新查询，直到对结果满意为止。为避免出现问题，最好从简单的目标开始，对输出进行测试，并根据自身需要调整目标，如上文中的 ResearchGPT。

2023-04-13 19:20:04 163

转载 OpenAI开源扩散模型（Diffusion Model）升级版，图像生成效率大大提升，1秒可以生产18张图

更重要的是，通过在多个时间步链接 Consistency Models 模型的输出，该方法可以提高样本质量，并以更多计算为代价执行零样本数据编辑，类似于扩散模型的迭代优化。前面我们已经提到，OpenAI 的这项研究主要是图像生成方面的，大家或多或少的都听过这项技术，例如最近热门的 Midjourney 和 Stable Diffusion，它们大都采用扩散模型，由于其生成的图片效果惊艳，很多人都将其视为最好的工具。但扩散模型依赖于迭代生成过程，这导致此类方法采样速度缓慢，进而限制了它们在实时应用中的潜力。

2023-04-13 16:39:46 1219

翻译微软DeepSpeed Chat震撼发布，一键RLHF训练千亿级大模型

在RLHF训练的经验生成阶段的推理执行过程中，DeepSpeed混合引擎使用轻量级的内存管理系统，来处理KV缓存和中间结果，同时使用高度优化的推理CUDA核和张量并行计算，与现有方案相比，实现了吞吐量（每秒token数）的大幅提升。如下图所示，DeepSpeed训练和推理引擎之间的过渡是无缝的：通过为actor模型启用典型的eval和train模式，在运行推理和训练流程时，DeepSpeed选择了不同的优化，以更快地运行模型，并提高整个系统的吞吐量。这两种训练分别花费不到300美元和600美元。

2023-04-13 08:31:27 241

转载大模型的涌现能力(Emergent Abilities of LLM)

few-shot prompting的emergent主要体现为模型在没有达到一定规模前，得到的表现较为随机，在突破规模的临界点后，表现大幅度提升。虽然本文主要探究模型超过一定规模后出现emergent ability, 但模型仍然有可能通过数据，算法的改进在更小规模出现emergence. 比如在BIG-Bench任务上，LaMDA在137B，GPT-3在175B上出现emergent ability，而PaLM在62B就可以出现。

2023-04-13 08:24:51 451

原创强大到离谱！硬核解读Stable Diffusion（完整版）

2022年可谓是，上半年有文生图大模型和，下半年有OpenAI的文本对话大模型问世，这让冷却的AI又沸腾起来了，因为AIGC能让更多的人真真切切感受到AI的力量。这篇文章将介绍比较火的文生图模型，Stable Diffusion不仅是一个完全开源的模型（代码，数据，模型全部开源），而且是它的参数量只有1B左右，大部分人可以在普通的显卡上进行推理甚至精调模型。毫不夸张的说，Stable Diffusion的出现和开源对AIGC的火热和发展是有巨大推动作用的，因为它让更多的人能快地上手AI作画。

2023-04-11 08:45:33 12584

原创【Python】你需要知道的20个常用的Python技巧

Python的可读性和简单性是其广受欢迎的两大原因，本文介绍20个常用的Python技巧来提高代码的可读性，并能帮助你节省大量时间，下面的技巧将在你的日常编码练习中非常实用。Anagrams的含义为两个单词中，每个英文单词（不含大小写）出现的次数相同，使用Counter类判断两个字符串是否为Anagrams。来源：https://medium.com。

2023-04-09 09:17:03 78

转载 SegGPT：在上下文中分割一切

所有的采样都是关于颜色的，即相同的颜色表示相同的类别或相同的实例。作者使用不同类型的分割数据集，包括部分、语义、实例、全景、人、视网膜和航拍图像分割，提供一个统一的视角，无需对数据集进行额外的工作或调整，并且在添加额外数据集时不需要对架构或pipeline进行修改，这与以前需要手工标签合并来组合不同类型的分割数据集的方法不同。类似地，在实例分割中，实例对象的颜色是根据其位置类别分配的，即颜色的数量等于空间位置的数量，从而得到模型仅依靠颜色本身来确定任务，而不是使用段之间的关系。其余的训练保持不变。

2023-04-08 15:12:20 246

转载 GPT-5今年Q4推出，若实现通用AI，将与人类没有两样

正面角度看，各种支持GPT-5 的应用服务及工作流程，速度及效率将有惊人突破，但我们也不能无视意想不到的负面后果，或许不致有电影〈机器人启世录〉（Robot Apocalypse）那么可怕的末日景像，但现在人们就非常担心GPT-4 会抢走饭碗了，更何况达到AGI 等级的GPT-5 是否会在更多领域完全取代昂贵的人力／人类！许多横行社群媒体的恶意机器人，不时散播假新闻或有害垃圾信息，操纵舆论、选举乃至金融交易或发动网络钓鱼攻击，随着AGI 的到来，届时恶意机器人将变得更可怕、更强大、更难侦测。

2023-04-08 14:00:33 175

转载 Pandas玩转文本处理

对于文本数据的处理(清洗)，是现实工作中的数据时不可或缺的功能，在这一节中,我们将介绍Pandas的字符串操作。Python内置一系列强大的字符串处理方法，但这些方法。

2023-04-07 09:32:03 499

转载中文对话大模型BELLE全面开源！（附：数据+模型+轻量化）

ChatGPT、GPT-4的横空出世，让人们看到了一丝AGI（通用人工智能）的曙光。在可预见的将来，ChatGPT将对各行各业带来革命性的影响。但是这样的技术不应该只被掌握在一家公司手中，因此BELLE项目应运而生了，他们的初衷是为了促进中文对话大模型开源社区的发展。为此，他们在三个方面做了初步的尝试，并已经开源了他们的研究成果。

2023-04-06 08:12:46 1383

转载国产开源「文本-视频生成」模型！免费在线体验，一键实现视频生成自由

不过图像生成真正进入全民化还要数Stable Diffusion的开源，仅在消费级的GPU上即可运行，用户可以在自己的数据集上进行微调，也不用忍受各大绘画网站为了「安全」设立的各种过滤词表，真正实现了「绘画自由」。通过将图像形成过程分解为自动编码器去噪的顺序应用，扩散模型实现了对图像数据和其他数据的最新合成结果，并且扩散模型的公式能够接受一个引导机制来控制图像生成过程，而不需要重新训练。为了能够在有限的计算资源上进行扩散模型训练，同时保持其质量和灵活性，研究人员将其应用于强大的预训练自动编码器的潜空间。

2023-04-06 08:10:42 1758

空空如也

如何避免被ChatGPT替代

ChatGPT在哪些方面提升了效率？