AI大模型前沿研究
软件工程硕士,机器学习&深度学习爱好者,忘记背后,努力面前,向着标杆直跑!
展开
-
『大模型笔记』真正的LLM智能体即将到来。它们将被训练!
真正的LLM智能体即将到来。它们将被训练!原创 2025-03-14 13:59:11 · 177 阅读 · 0 评论 -
『大模型笔记』什么是MCP?将AI智能体与数据库和API集成
主题内容概述MCP 概述 (Model Context Protocol)由 Anthropic(Claude)主导的一个开放协议,旨在让 AI 模型与不同 API、数据源无缝对接。它填补了功能碎片化、缺少统一标准的空白,为复杂、多步骤任务提供更高效的上下文处理能力。一种通用标准协议,旨在整合 AI 能力、服务与上下文,替代零散的 Agent 方案。通过 MCP,可以快速接入各种服务并实现多轮对话、复杂任务的执行,不必针对每个服务单独开发集成逻辑,从而提高可维护性和可扩展性。原创 2025-03-14 13:54:16 · 194 阅读 · 0 评论 -
『大模型笔记』超级对齐(Super Alignment):确保人工超智能遵循人类价值观的挑战与对策
超级对齐(Super Alignment):确保人工超智能遵循人类价值观的挑战与对策。原创 2025-03-12 09:59:03 · 43 阅读 · 0 评论 -
『大模型笔记』GPT-4.5发布,AGI真的要来了吗
GPT-4.5 是 OpenAI 迄今为止最大、最具知识性的模型。目前以研究预览形式发布,面向 ChatGPT Pro 用户和 API 开发者。未来一周内将扩展到 Plus 用户、教育(EDU)用户和团队(Team)用户。OpenAI 发布了其最新模型 GPT-4.5,并称其为迄今为止最大、最具知识性的 AI 模型。目前,该模型以研究预览形式提供给 ChatGPT Pro 用户和 API 开发者,并计划在未来一周内推广至 Plus 用户、教育(EDU)用户和团队(Team)用户。原创 2025-02-28 13:08:36 · 82 阅读 · 0 评论 -
『大模型笔记』详细对比GraphRAG与传统RAG!
详细对比GraphRAG与传统RAG!原创 2025-02-21 16:07:27 · 97 阅读 · 0 评论 -
『大模型笔记』DeepSeek-R1-Distill-Qwen-14B vLLM 部署
DeepSeek-R1-Distill-Qwen-14B vLLM 部署。原创 2025-02-19 10:07:57 · 97 阅读 · 0 评论 -
『大模型笔记』马斯克的Grok3让整个AI行业震惊-地表最强!
推理能力是AI发展的下一步关键,Grok3在这一方面取得了显著进展。推理模型能够通过深思熟虑的过程来解决问题,这种能力使得模型能够处理更复杂和具有挑战性的问题。与传统的瞬时回应模型不同,推理模型可以通过延长思考时间,给出更精准的答案。Grok3的推理版本也在最新的测试中超越了其他竞品,证明了其在复杂问题解决中的强大能力。Grok3进入了代理时代,推出了名为DeepSearch的新产品。DeepSearch不仅是下一代搜索引擎,更是一个帮助用户理解复杂信息、节省时间的工具。原创 2025-02-18 15:55:10 · 68 阅读 · 0 评论 -
『大模型笔记』Jason Wei: 大语言模型的扩展范式!
Jason Wei: 大语言模型的扩展范式!原创 2025-02-17 15:18:22 · 321 阅读 · 0 评论 -
『大模型笔记』Ollama环境变量大全!
Ollama环境变量大全!原创 2025-02-14 17:26:34 · 784 阅读 · 0 评论 -
『大模型笔记』怎样让Ollama启动的大模型常驻内存(显存)?
怎样让Ollama启动的大模型常驻内存(显存)?原创 2025-02-14 16:19:04 · 1175 阅读 · 0 评论 -
『大模型笔记』强烈推荐OpenAI官方:推理模型最佳实践!
大模型笔记』强烈推荐OpenAI官方:推理模型最佳实践!原创 2025-02-14 14:50:12 · 234 阅读 · 0 评论 -
『大模型笔记』DeepSeek R1:掀起科技界风暴的全新大模型
DeepSeq R1:掀起科技界风暴的全新大模型原创 2025-02-06 09:55:07 · 449 阅读 · 0 评论 -
『大模型笔记』AI真的能思考吗?揭穿AI的局限性!
AI真的能思考吗?揭穿AI的局限性!原创 2025-01-21 10:19:35 · 68 阅读 · 0 评论 -
『大模型笔记』评估大型语言模型的指标:ELO评分,BLEU,困惑度和交叉熵介绍以及举例解释
大模型的ELO得分如何理解以及示例解析原创 2024-12-26 09:38:14 · 388 阅读 · 0 评论 -
『大模型笔记』2025年,哪些行业会被 AI “平替”?程序员何去何从?
2025 会被 AI“平替”的行业?程序员真的会被取代吗?原创 2024-12-24 14:53:54 · 660 阅读 · 0 评论 -
『大模型笔记』ComfyUI工作流对应的Json文件字段解析!
ComfyUI工作流对应的Json文件字段解析!原创 2024-12-10 14:36:34 · 480 阅读 · 0 评论 -
『大模型笔记』OpenAI 十二天活动第1天:o1和o1 pro
OpenAI 十二天活动第1天:o1和o1 pro。原创 2024-12-06 10:24:33 · 262 阅读 · 0 评论 -
『大模型笔记』IBM技术团队:AI智能体与AI助手功能对比!
大模型笔记』IBM技术团队:AI智能体与AI助手功能对比!原创 2024-11-22 15:38:03 · 289 阅读 · 0 评论 -
『大模型笔记』AI自动化编程工具汇总[持续更新ING]!
大模型笔记』AI自动化编程工具汇总!原创 2024-11-18 11:19:53 · 721 阅读 · 0 评论 -
『大模型笔记』理解和估计训练LLM的GPU内存需求(重要)!
理解和估计训练LLM的GPU内存需求(重要)!原创 2024-11-13 14:52:20 · 100 阅读 · 0 评论 -
『大模型笔记』IBM技术团队:什么是智能体型RAG!
检索增强生成(RAG)是一种结合检索和生成能力的技术,通过从向量数据库检索相关信息作为上下文,为大语言模型提供支持,以生成更高质量的响应。这一方法通过将查询内容与数据库中的信息匹配,从而确保模型的生成内容具体且准确。向量数据库在RAG流程中承担了关键角色,它以查询为依据返回最相关的信息,并将该信息整合进提示,从而提升响应的可靠性。原创 2024-11-07 14:31:04 · 211 阅读 · 0 评论 -
『大模型笔记』如何在无网路的情况下在Linux主机上安装NVIDIA Container Toolkit(nvidia-docker2)
如何在无网路的情况下在Linux主机上安装NVIDIA Container Toolkit(nvidia-docker2)原创 2024-10-29 17:17:59 · 676 阅读 · 0 评论 -
『大模型笔记』pip3 install -e .[stable]作用!
pip3 install -e .[stable]具体是如何一步一步的执行的?原创 2024-10-15 16:42:30 · 265 阅读 · 0 评论 -
『大模型笔记』全是细节 | 聊一聊做SFT的经验
全是细节 | 聊一聊做SFT的经验。原创 2024-10-08 15:49:19 · 230 阅读 · 0 评论 -
『大模型笔记』Docker如何清理Build Cache以及nvidia/cuda官方镜像!
首先,你可以运行以下命令来清理未使用的镜像、容器、卷和构建缓存:docker image prune -a这些命令应该能够帮助你释放下的大量空间。删除构建缓存的主要影响是下次构建镜像时会变慢,但不会对现有的容器或镜像运行产生负面影响。如果你需要空间,且可以接受稍长的构建时间,删除缓存是一个合理的选择。原创 2024-09-26 18:05:50 · 616 阅读 · 0 评论 -
『大模型笔记』提示工程师是最短命的职业吗?提示工程已经死了吗?
AI 时代,总是在搞大新闻,一会是 AI 要替代程序员了,一会是提示词工程师是最有潜力的职业,一会是提示词工程师是最短命的职业。然而真正去透过现象看本质,里面有太多的以偏概全,太多噱头。就提示工程这事来说,会像编程一样,还会在很长一段时间存在并发挥巨大的价值。真正的提示工程,本质还是怎么让 AI 懂你,怎么让 AI 听话。在让别人懂我们和让别人听话这事上,我们已经奋斗了几千年了,至今还在努力中,也许 AI 会容易一点吧。原创 2024-09-25 17:28:59 · 107 阅读 · 0 评论 -
『大模型笔记』谈谈OpenAI o1的价值意义及RL 的Scaling law
大模型笔记』谈谈OpenAI o1的价值意义及RL 的Scaling law。原创 2024-09-25 15:51:58 · 379 阅读 · 0 评论 -
『大模型笔记』林纳斯·托瓦兹(Linux之父):谈论热议与人工智能的未来!
林纳斯·托瓦兹谈论了围绕人工智能和大语言模型的热议,以及人工智能在 Linux 上的未来。ChatGPT 及其他 AI 机器人是否会促进 Linux 内核的开发?让我们来听听 Linux 的创造者怎么说。原创 2024-08-30 14:28:49 · 486 阅读 · 1 评论 -
『大模型笔记』Prompt Engineering具体实施方案综述!
本文深入探讨当前最前沿的prompt engineering方案,结合OpenAI、Anthropic和Google等大模型公司的资料,以及开源社区中宝贵的prompt技巧分享,全面解析这一领域的实践策略。原创 2024-08-27 09:53:59 · 656 阅读 · 0 评论 -
『大模型笔记』dockerfile中的ENTRYPOINT和CMD有什么区别?|dockerfile设置时区!
主要阐述了 Dockerfile 中 `ENTRYPOINT` 和 `CMD` 指令的区别、使用方式以及如何结合使用,以及它们对容器启动行为的影响。原创 2024-08-22 14:01:47 · 411 阅读 · 0 评论 -
『大模型笔记』从零开始构建AI智能体!
本文介绍了如何从零开始构建一个 AI 智能体,包括智能体的工作原理、Python 代码实现以及如何使用大语言模型驱动智能体来影响其环境。原创 2024-08-15 14:40:16 · 693 阅读 · 0 评论 -
『大模型笔记』WizardLM:使大型预训练语言模型能够遵循复杂的指令
Evol-Instruct是一种新颖的方法,使用LLMs代替人类自动批量生产各种难度级别和技能范围的开放域指令,以提高性能LLMs。您可以使用我们提供的Evol 脚本轻松踏上自己的进化之旅。原创 2024-08-14 15:51:29 · 284 阅读 · 0 评论 -
『大模型笔记』基于LLM生成真实世界数据的合成问答数据!
对于大语言模型(LLM)或小型语言模型(SLM)的微调、RAG或评估,通常需要从真实世界的原始数据中生成问答格式的数据。然而,当需要从头创建数据集而非使用现成的数据集时,您将面临诸多挑战。本次动手实验旨在通过展示如何从复杂的非结构化数据中创建或增强问答数据集来减轻部分工作负担,并假设这是一个真实的场景。该示例旨在为开发者和数据科学家以及相关领域的从业者提供逐步指导,使他们在稍许帮助下也能尝试完成。我们旨在通过微调或RAG来提高模型的性能,提供高质量的数据集。然而,没有预先存在的数据集;我们只有。原创 2024-08-13 16:31:37 · 492 阅读 · 0 评论 -
『大模型笔记』虚拟机(Virtual Machine,VM)与Docker对比!
首先,这两种技术都有一个共同点,那就是虚拟化(virtualization)。所谓虚拟化,就是通过软件创建一个抽象层的过程。对于虚拟机来说,这个抽象层或抽象软件被称为“虚拟机管理程序”(hypervisor)。简单来说,虚拟机管理程序帮助虚拟机模拟物理计算机的运行。在虚拟机管理程序之下,我们有一些硬件资源,虚拟机管理程序负责在单个物理主机上管理不同虚拟机之间的资源分配。因此,在虚拟机管理程序之上,我们可以运行多个虚拟机。每个虚拟机都有自己的操作系统和虚拟硬件,比如虚拟 CPU、虚拟存储等。原创 2024-08-13 15:41:30 · 357 阅读 · 0 评论 -
『大模型笔记』人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)
人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)原创 2024-08-09 11:31:32 · 553 阅读 · 0 评论 -
『大模型笔记』从API到Agent:万字长文洞悉LangChain工程化设计
大模型笔记』从API到Agent:万字长文洞悉LangChain工程化设计。原创 2024-08-07 14:03:30 · 270 阅读 · 0 评论 -
『大模型笔记』什么是大规模生成式AI!
生成式 AI 算法可以扩展到数百个 GPU 上。实际上,你可以将它们部署在 V100、A100,甚至是 Nvidia 提供的不同 H 系列 GPU 上,或者其他供应商的硬件上。但即便如此,每秒成千上万种不同类型的请求也会给系统带来压力,同时也会对底层硬件产生负担。为了解决这个问题,我们可以采用几种策略。首先,介绍一种叫做批处理式生成式 AI 系统的方法。在这种情况下,我们希望创建由这些大语言模型生成的非常动态的填空句子。然后我们将它们存储在内容分发网络(CDN)上,并在全球范围内缓存。原创 2024-08-02 23:47:27 · 216 阅读 · 0 评论 -
『大模型笔记』LLM秘密:温度、Top-K和Top-P抽样技术解析!
总结一下,使用温度、Top-K和Top-P技术的随机采样为大语言模型生成输出提供了不同的选择。在视频的最后部分,我将讨论每种技术的优缺点,以便您更好地了解何时使用每种方法以及可能的限制。温度参数的优点包括增加模型的创造力,较高温度引入更多随机性,促进创造性和多样性输出,还可以防止模型变得过于确定性。然而,缺点是过高温度可能导致输出不连贯,因为模型更可能选择不太可能的单词,增加随机性可能导致文本缺乏上下文或意义。原创 2024-07-19 13:46:09 · 859 阅读 · 0 评论 -
『大模型笔记』什么是 AI 智能体?
为了解释这一点,我们必须看一看在生成式 AI 领域看到的各种转变。原创 2024-07-17 09:38:38 · 513 阅读 · 1 评论 -
『大模型笔记』GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布
GraphRAG:用于复杂数据发现的新工具现已在GitHub上发布原创 2024-07-09 14:10:01 · 2214 阅读 · 0 评论