JasonLiu1919-CSDN博客

原创吹爆吊打 GPT-4 的大模型新王者Reflection 70B，是否言过其实？

一觉睡西天，谁知梦里乾坤大。只身眠净土，只道其中日月长。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖铁观音的小男孩。今天这篇小作文主要介绍这几天网上狂吹的开源新晋王者Reflection 70B，该模型号称在多个基准测试中超越GPT-4o和Llama 3.1。模型下载：https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B。

2024-09-21 14:53:10 705

原创 AI入门系列 | 如何优雅地下载最前沿的模型？

本文简要介绍如何便捷地从huggingface上下载模型。该方式从小编自身的实践来看，是目前最为便捷的，特别是支持断点续传的功能，特别符合我们的网络环境。

2024-09-21 14:28:51 287

原创从 Prompt 工程看职场PUA！明明是模型缺陷，为啥要 Prompt 雕花？

从 Prompt 工程到职场 PUA，我们看到一个共同的问题：系统的不足让个体承担了不必要的负担。然而，随着技术的进步和职场文化的变革，这种现象正在得到改善。未来的 AI 模型应更具主动性和透明性，让用户在明确表达需求的情况下得到准确的结果。而在职场中，我们也应该追求一种公开、透明的沟通机制，鼓励每个人清晰表达需求。这种双向的改善，无疑将为人类和人工智能的互动带来更光明的前景。

2024-09-16 18:45:50 802

原创端侧大模型系列 | 斯坦福手机端侧Agent大模型，为Android API而生！

语言模型在自动工作流中的有效性得到了验证，尤其是在函数调用方面。尽管大规模语言模型在云环境中表现优异，但隐私和成本问题仍令人担忧。当前端侧模型在延迟和准确性上面临挑战，研究人员提出了名为Octopus的模型，其2B参数版本在准确性和延迟上超越了GPT-4，并将上下文长度减少了95%。与Llama-7B相比，Octopus的延迟提高了35倍，适合在各种边缘设备上部署。论文地址：模型下载地址：大型语言模型在函数调用方面的能力显著促进了AI Agent的发展，如MultiOn、Adept AI等已进入市场。

2024-09-16 18:42:43 1939

原创 “创始人模式“？Airbnb创始人分享

经过深入思考，答案逐渐明晰：这些建议的实质是教你如何经营一家并非由你创办的公司，换句话说，被建议的对象设定其实是职业管理人，而非创始人。创始人们感到自己受到了来自两个方向的操纵：一方面是那些告诉他们必须像管理人一样经营公司的人，另一方面是当他们这么做时，来自被他们管理的员工的压力。这种方法听起来很有道理，但从众多创始人的经验来看，这种建议的潜台词可能变成："雇佣专业的骗子，让他们把公司掏空。然而，从那些尝试过管理人模式的创始人的失望中，以及他们摆脱这种模式后取得的成功中，我们可以推断出另一种模式的存在。

2024-09-08 15:49:03 492

原创 LLM系列 | 38：解读阿里开源语音多模态模型Qwen2-Audio

Qwen2-Audio是一个大规模音频-语言模型，可以接受各种音频信号输入，并根据语音指令执行音频分析或直接生成文本响应。与之前的模型（Qwen-Audio）相比，Qwen2-Audio在以下几个方面做了改进:简化预训练过程: 使用自然语言提示替代复杂的层级标签，扩大了训练数据规模。增强指令遵循能力: 通过监督微调和直接偏好优化(DPO)，使模型输出更符合人类偏好。实现两种音频交互模式: 语音聊天模式和音频分析模式，无需系统提示即可智能切换。

2024-09-08 10:54:07 1032

原创腾讯版GPT-4o平替方案：VITA

VITA是腾讯优图实验室在交互式全模态大语言模型方面的一次新探索。近年来，大语言模型(LLM)和多模态大语言模型(MLLM)的快速发展给人工智能领域带来了巨大变革。特别是GPT-4等模型展现出的强大多模态能力和自然交互体验，为MLLM的实际应用奠定了基础。然而，开源社区在这一领域还存在明显的差距。为了推动开源MLLM的发展，来自腾讯优图实验室等机构的研究人员提出了VITA模型，这是首个开源的能够同时处理视频、图像、文本和音频的多模态大语言模型，并且具备先进的多模态交互体验。

2024-09-01 14:11:31 1260 1

原创 LLM系列 | 36：Google最新开源大模型：Gemma 2介绍及其微调(下篇)

引言环境安装数据准备下载处理模型训练模型inference结果gemma-2-9b。

2024-09-01 14:01:12 966

原创 Google最新开源大语言模型：Gemma 2介绍及其微调(上篇)

2024年6月27日，Google DeepMind发布了Gemma 2，这是Gemma系列轻量级开放语言模型的最新成员。Gemma 2在架构和训练方法上都有重大创新，在多项基准测试中取得了显著进步，甚至可以与参数规模大2-3倍的模型相媲美。本文将对Gemma 2技术报告的主要内容进行解读，包括模型架构、预训练和后训练方法、性能评估等方面。

2024-07-21 16:39:13 1657

原创基于AutoGen的多Agent AI系统实践

AutoGen是一个由Microsoft开源的框架，专为构建和优化大型语言模型（LLM）工作流程而设计。它提供了多Agent会话框架、应用程序构建工具以及推理性能优化的支持。基于AutoGen框架使得能够方便地使用多Agent开发LLM应用程序。以下将介绍如何基于AutoGen构建和定制多Agent系统，使Agent能够扮演不同的角色。通过使用AutoGen框架，不同Agent可以协作完成复杂任务。

2024-07-14 19:31:11 1044

原创 LLM端侧部署系列 | 手机上运行47B大模型?上交推理框架PowerInfer-2助力AI手机端侧部署

近日，上海交大为大模型能够在智能手机上部署提出PowerInfer-2，该框架是专为智能手机设计且高度优化的推理框架。目前PowerInfer-2支持的最大模型是Mixtral 47B MoE模型，在inference的时候每秒可生成11.68个token，这比其他最先进的框架快22倍。即使是使用7B模型，PowerInfer-2只需将50%的FFN权重放置在手机上，在7B这个模型参数上，仍然是目前最快的推理框架！视频号：AI科技爱科学。

2024-06-30 13:05:58 1160

原创 LLM端侧部署系列 | 陈天奇MLC-LLM重磅升级：基于机器学习编译的通用LLM部署引擎

当下正是大型语言模型和生成式AI时代，蓬勃发展的大型语言模型带来了定制和特定领域模型部署的重大机(风)遇(口)。一方面，云服务器部署发展迅速，提供能够利用多个GPU为更大模型、更多并发服务请求的解决方案。与此同时，本地化的端侧部署开始崭露头角，量化后的模型已能部署到笔记本电脑、浏览器和手机等端侧设备上。相信未来是端云混合的部署方式，因此让任何人都能在云端和本地环境中运行大型语言模型至关重要。包括MLC-LLM项目在内的许多LLM推理项目，为服务器和本地模型部署提供了不同的解决方案，具有不同的实现和优化。

2024-06-30 12:48:29 1960

原创 LLM端侧部署系列 | 如何将阿里千问大模型Qwen部署到手机上？环境安装及其配置(上篇)

引言下载待部署模型安装minconda安装tvm和mlc-llm安装 JDK安装 Android SDK下载mlc-llm仓库设置环境变量安装Rust。

2024-06-23 14:49:59 1340

原创 LLM端侧部署系列 | 如何将阿里千问大模型Qwen部署到手机上？实战演示(下篇)

为将Qwen大模型部署到手机，实现断网下Qwen模型正常使用，本文选择MLC-LLM框架。MLC LLM（机器学习编译大型语言模型，Machine Learning Compilation for Large Language Models）是一种高性能的通用部署解决方案，将任何语言模型本地化部署在各种硬件后端和本机应用程序上，并为每个人提供一个高效的框架，以进一步优化自己模型性能。该项目的使命是使每个人都能够使用ML编译技术在各种设备上本机开发、优化和部署AI模型。

2024-04-04 16:39:06 3318 1

原创 LLM系列 | 28：实测Claude 3有感，OpenAI员工为啥没有竞业协议？

OpenAI的最强竞争对手Anthropic于3月4日发布了新一代AI 大模型系列：Claude 3。Claude 3 包含三个模型，按能力由弱到强排列分别是 Claude 3 Haiku（中杯）、Claude 3 Sonnet（大杯）和 Claude 3 Opus（超大杯）。这些模型分别适用于不同场景，Opus能力最强，Sonnet平衡速度和能力，Haiku最快，适合互动型AI应用场景。

2024-03-10 23:27:55 1176

原创模型推理加速系列 | 08：TensorRT-LLM助力LLM高性能推理

其实小编之前有介绍过关于如何用TensorRT提升模型推理速度，感兴趣的小伙伴可以回顾下：TensorRT-LLM 是一个开源库，用于定义、优化和执行大型语言模型 (LLM) 在生产环境的推理。它在开源 Python API 中保留了 FasterTransformer 的核心功能，并与 TensorRT 的深度学习编译器配合使用，以快速支持新模型和定制模型。

2023-12-23 11:10:50 1267

原创 LLM系列 | 27 : 天工大模型Skywork解读及揭露刷榜内幕引发的思考

Skywork是由昆仑万维集团·天工团队开发的一系列大型模型，计划开源的模型有Skywork-13B-Base模型(目前确实已开源)、Skywork-13B-Chat模型(暂时2023年11月12日还没有开源，可能在走备案和流程审批？)、Skywork-13B-Math模型(暂无)和Skywork-13B-MM模型(也暂无)。Skywork-13B是使用超过3.2万亿个中英文Token进行预训练得到的130亿参数双语基础语言模型系列(即所谓的基座模型)。

2023-11-15 23:00:58 1892

原创 OpenAI开发者大会之后，当何去何从？

此次发布会简单总结如下。1. 发布GPT-4 Turbo更长。支持128K上下文输入，标准GPT-4是8K版本，之前升级出了32K版本更可控。JSON格式输出，增加seed控制模型回复可复现更新的知识。GPT-4 Trubo的知识更新至2023年4月开放多模态能力，整合了文生图模型DALL·E 3和声音合成模型（TTS）以及语音识别模型Whisper V3等开放 Fine-Tuning功能，支持在GPT-4基础上微调进行模型定制输出速度更快，每分钟输出翻倍围绕ChatGPT构建应用生态。

2023-11-08 23:52:57 540 1

原创 LLM系列 | 26：阿里千问Qwen模型解读、本地部署

Qwen 是一个全能的语言模型系列，包含各种参数量的模型，如 Qwen（基础预训练语言模型，即基座模型）和 Qwen-Chat（聊天模型，该模型采用人类对齐技术进行微调）。基座模型在众多下游任务中始终表现出卓越的性能，而聊天模型，尤其是使用人类反馈强化学习（RLHF）训练的模型，具有很强的竞争力。聊天模型Qwen-Chat拥有先进的工具使用和规划能力，可用于创建agent应用程序。即使在使用代码解释器等复杂任务上，Qwen-Chat与更大的模型相比也能表现出极具竞争力的性能。

2023-11-04 17:05:42 14662

原创 LLM系列 | 23：多模态大模型：浦语·灵笔InternLM-XComposer解读、实战和思考

浦语·灵笔模型是基于书生·浦语大语言模型研发的视觉-语言大模型图文交错创作: 浦语·灵笔可以为用户打造图文并貌的文章，具体是提供文章生成和配图选择的功能。理解用户指令，创作符合要求的文章。智能分析文章，自动规划插图的理想位置，确定图像内容需求。基于以文搜图服务，从图库中检索出对应图片。图文理解: 浦语·灵笔设计了高效的训练策略，为模型注入海量的多模态概念和知识数据，赋予其强大的图文理解和对话能力。从公布的技术报告可以获悉InternLM-XComposer在公开评测数据集上的战绩。

2023-10-27 23:19:18 1851 1

原创 LLM系列 | 22 : Code Llama实战(下篇)：本地部署、量化及GPT-4对比

官方发布了3类Code Llama模型，每类都有三种模型尺寸：Code Llama：Base模型(即常说的基座模型)，为通用的代码生成和理解而设计。Code Llama - Python：专门为Python而设计。Code Llama - Instruct：遵循指令，更加安全，可以作为代码助手。

2023-10-27 23:07:13 4070 1

原创 LLM 系列 | 21 : Code Llama实战(上篇) : 模型简介与评测

Code Llama是基于Llama 2面向编程领域的大型代码语言模型(即代码大模型)，基于该工具可以使用文本提示(Prompt)直接生成或者理解代码。Code Llama具备包括代码补全能力，最长可以生成 100k 个token。此外，Code Llama还具备编程任务的零样本指令遵循能力，即面向自然语言的指令编程。官方宣称Code Llama在公开的编程任务中效果最好，能够使开发人员的工作流程更快速、更高效，并降低编程的学习门槛。

2023-10-15 15:26:46 4009

原创 LLM系列 | 20 : Llama2 实战(下篇)-中文语料微调(附完整代码)

上篇主要介绍Llama2的基本情况和基于官方模型实测Llama2在中英上的效果，包括。今天这篇小作文作为Llama2的下篇，主要介绍如何用中文语料对Llama 2的基座模型(7B版)进行微调并实测微调后模型的效果。本文实验完整代码请找小编索取。后续将实战Code Llama感兴趣的小伙伴可以关注下！

2023-09-16 21:34:30 4515

原创 LLM系列 | 19 : Llama 2实战(上篇)-本地部署(附代码)

小伙伴们好，我是《小窗幽记机器学习》的小编：卖热干面的小女孩。紧接前文：万字长文细说ChatGPT的前世今生，后续会尝试以理论+实践的方式逐步对主流的各大LLM进行实测和汉化。今天这篇关于Llama2的小作文其实比较长，所以分为上下两篇，上篇主要介绍和上的效果，包括。本文作为上篇，整个实验过程使用的模型是，包括和。下篇则主要介绍如何用中文语料对Llama 2的基座模型进行微调并实测微调后模型的效果。感兴趣的小伙伴，可以关注下！本文实验完整代码获取请前往《小窗幽记机器学习》找小编索取。

2023-08-24 23:46:30 6987 3

原创万字长文细说ChatGPT的前世今生

本文主要介绍GPT模型的训练方法，包括预训练、监督微调、奖励建模和强化学习这四个阶段。不同微调模型具备不同特点，基础模型更富创造力，而强化学习微调后可获得最高质量的回复。在使用GPT的使用，可以利用提示工程技巧，比如提供充足上下文、引导模型步步思考等。当前模型依然存在各种局限，人类应谨慎而有效地将其应用于低风险的协作场景中，不能轻视其潜在风险。总体而言，本文系统地介绍了GPT的训练和使用，包括GPT助手模型的全流程及各种关键技巧。

2023-08-09 23:47:11 329

原创 LLM系列 | 18 : 如何用LangChain进行网页问答

一夕轻雷落万丝，霁光浮瓦碧参差。紧接之前今天这篇小作文是LangChain实践专题的第4篇，主要介绍如何用LangChain进行网页问答。前文介绍用LangChain做文档问答，需要先将网页另存为pdf或者其他文档格式，再读取文件做问答。今天这篇小作文介绍如何直接做，本质上是将前文的改为。

2023-07-27 23:49:12 3656

原创如何优雅地下载huggingface上模型，以llama2模型下载为例

由于llama2模型的下载需要经过官方的授权，这就需要登陆hugging face的，对模型页面进行申请。等待审核通过后，才能够下载。如果在单纯用 git lfs 的方式进行下载，需要输入账号和密码。为了更快速地进行下载，既能够设置密码、也能够设置代理，采用脚本的方式会更加合适，不会因为随便改动代理而引发其他问题。

2023-07-25 19:57:37 14960 8

原创《人类简史》作者尤瓦尔·赫拉利最新访谈：《人性、智能、权力和阴谋》

赫拉利在访谈中阐释了他对AI、意识、人性、和平等的独到见解，让我们审视这个时代的种种关键议题。赫拉利分析了人工智能的风险，呼吁我们不能仅凭智能来判断一个存在，还要考量其是否具备意识和情感。痛苦是判断生命的唯一标准，理解痛苦本质才是接近生命意义的关键，情感体验高于理性逻辑。此外，赫拉利还介绍了自己的思考方式，直视死亡，并通过冥想获得洞见。赫拉利分析了希特勒、内塔尼亚胡和俄乌冲突等问题。对于阴谋论，他指出小团体不可能控制世界，我们需要合作应对共同威胁。而AI则可能让人类失去对自己生活的控制，需要保持警惕。

2023-07-23 18:19:59 271

原创模型部署系列 | 01: 基于Triton部署Resnet18(附完整代码，建议收藏)

醉后不知天在水，满船清梦压星河。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖猪脚饭的小女孩。。本文作为作为的开篇，主要介绍如何使用Triton Server部署Pytorch格式的模型，并利用NVIDIA官方提供的工具进行服务性能测试。完整代码其实都在文章里面了，如想进一步交流欢迎在微信公众号：《小窗幽记机器学习》上添加小编微信。。后续会持续整理专题，敬请关注。

2023-07-17 23:24:12 764

原创 LLM系列| 17：Claude2剑指ChatGPT，长文档问答，真香！

Claude 2刷新现有商业产品的输入上限，长达100k个token。同时支持多种如PDF、TXT等文档格式作为输入，在文档问答、文档大纲和摘要生成方面效果显著。文档问答效果是真不错，忍不住安利！但在面对稍微复杂表格(比如行列数据共用)的问答时仍然力不从心，有待优化。此外，对于编程题目的解答，Claude 2也存在较大提升空间。

2023-07-15 16:09:39 242

原创 LLM系列 | 17: ChatGPT应用框架LangChain实践速成

本文主要介绍LangChain中OpenAI接口和ChatOpenAI接口的区别，并结合Prompt模板、Chain模块、Agent模块、Memory模块以实践的方式介绍两者的使用差异。

2023-07-09 21:53:15 423

原创 LLM系列 | 16: 如何基于LangChain打造联网版ChatGPT？

连雨不知春去，一晴方觉夏深。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖锅盔的小男孩。汇总下之前撰写的紧接前文今天这篇小作文是的第2篇，简单介绍LangChain的用途及如何利用LangChain将ChatGPT和搜索引擎(Google)结合起来，从而实现一个极简的。此前，ChatGPT无法联网，虽然现在OpenAI已经为ChatGPT增加联网和插件功能，但是这些功能仅限于面向ChatGPT Plus用户。对于非Plus用户，LangChain是一个不错的选择。

2023-07-05 23:34:18 686

原创 LLM 系列 | 15：如何用LangChain做长文档问答？

西塞山前白鹭飞，桃花流水鳜鱼肥。小伙伴们好，我是微信公众号《》的小编：卖酱猪蹄的小女孩。。前文ChatGPT Prompt 工程和应用系列文章可以如下自取，预告一下该系列还有2篇小作文，后续补下。本文作为的开篇，以为例介绍如何使用LangChain。上添加小编微信。

2023-06-29 23:25:11 910

原创 LLM系列 | 14: 构建端到端智能客服

漠漠水田飞白鹭，阴阴夏木啭黄鹂。小伙伴们好，我是微信公众号《》的小编：卖海蛎煎的小男孩。今天这篇小作文是吴恩达《Building Systems with the ChatGPT API》课程的第3篇笔记。本文将综合之前多篇文章搭建一个带评估功能的。完整代码请在微信公众号：「小窗幽记机器学习」上添加小编微信。

2023-06-29 23:22:49 403

原创 LLM系列 | 13: 如何链接多个Prompt处理复杂任务？以智能客服为例

本文以更加复杂的智能客服场景为例，通过构建链接多个Prompt实现复杂的客服问答服务。在实际工作过程，对于复杂任务需要将其拆分为一系列简单的子任务来链接多个Prompt。这种链接多个Prompt的方式与此前介绍的思维链不同。思维链Prompt是使用一个长而复杂的指令，实质上只有一条Prompt，对任务的处理是一次完成。而链接多个Prompt是将一个任务拆解成多个模块，每个子任务单独用一个prompt完成。面对复杂的任务，通过分解成多个子任务，链接多个Prompt的方式，使其更易于管理，并减少错误的可能性。

2023-06-29 23:15:39 630

原创 LLM系列 | 12: 实测OpenAI函数调用功能：以数据库问答为例

小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：划龙舟的小男孩。注意，在定义functions规范时要将数据库的schema插入到函数规范中，这对模型来说是很重要的。通过上述示例可以确切感受openai函数调用功能的强大，这也为开发者构建更多稳健服务提供更强的保障。中，生成的SQL可能存在较高风险。因为模型在生成正确的 SQL 这方面暂不完全可靠，小伙伴们评估。本文将介绍如何将模型生成的结果输入到自定义的函数中，并利用该功能实现。以下直接介绍示例数据库相关细节。黑云翻墨未遮山，白雨跳珠乱入船。

2023-06-29 23:13:02 572

经典模式识别教材matlab代码

空空如也