自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(400)
  • 收藏
  • 关注

原创 深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源!一经问世,它立刻登顶全球最强开源模型王座。它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。Qwen3是国内首个「混合推理模型」,「快思考」与「慢思考」集成进同一个模型,对简单需求可低算力「秒回」答案,对复杂问题可多步骤「深度思考」,大大节省算力消耗。它采用混合专家(MoE)架构,总参数量235B,激活仅需22B。

2025-04-30 17:32:58 404

原创 大模型应用开发入门:手把手用VSCode跑通第一个LangChain程序

我们在以前学习任何语言第一个入门小demo都是写一个Hell World!,同样我们在学习LangChain框架的时候,也以类似输出一个“Hell World!”的简单回复作为我们的入门demo案例在正式开始LangChain的实战学习前,需要配置一下环境。LangChain框架目前支持Python和TypeScript两种语言,这里我们选用处理人工智能更主流的Python语言来进行学习,有关JavaScript LangChain库的文档,可以点击这里。

2025-04-28 11:58:07 980

原创 费曼学习法解读大模型微调:零基础也能轻松入门(附图解+代码)

人物组(1):老师、学生。人物组(2)爸爸、妈妈、我,妹妹。任务一:妈妈监管我的学习,我学习理科,我主要就是寻找窍门,提升解题的技巧和方法,想在考试中获得高分,这样妈妈就会多给我零花钱。任务二:爸爸监管妹妹的学习,妹妹学习文科。妹妹主要就是背,就是把书本上学到的知识都背下来,通过记忆内容来学习。

2025-04-28 11:56:18 914

原创 Local Deep Researcher:本地化部署的AI研究助手,零门槛开启智能研究

Local Deep Researcher 是一款完全本地化运行的网络研究助手,依托Ollama所托管的各类大语言模型开展工作。它的核心设计理念是 “隐私与效率并重”,旨在帮助用户高效地进行深度研究。当用户输入一个研究主题后,Local Deep Researcher会自动生成网络搜索查询,并通过配置的搜索引擎(如默认的 Tavily,也支持 DuckDuckGo、Perplexity 等)收集相关的网络搜索结果。

2025-04-27 11:42:02 907

原创 Agent-S架构深度解析:低代码+多模态如何重塑下一代智能体?

Agent-S 是一个聚焦于通过自然语言控制计算机操作的开源智能代理框架。它巧妙融合多模态大语言模型(MLLM)的强大能力与图形用户界面(GUI)操作,使其能够像人类一样娴熟地完成复杂计算机任务。Agent-S 的核心愿景是攻克传统自动化工具在灵活性与适应性上的短板,为用户打造一种全新的、直观的人机交互模式,从而在提升工作效率、优化操作体验等方面发挥重要作用。

2025-04-27 11:30:08 606

原创 实测百度文心快码,国产 AI 代码编辑器离 Cursor 平替还有多远?

简单来说,文心快码是百度基于其强大的。

2025-04-18 11:15:10 1064

原创 OpenAI 最强推理模型 o3 来袭!图像深度思考、最强氛围编程

4月17日凌晨,OpenAI 发布了 o 系列里能力最强的推理模型—— o3 和 o4-mini。此次,奥特曼表示,o3 和 o4-mini 功能非常强大,尤其擅长多模态理解,并且可以组合使用 ChatGPT 中的所有工具。另外,o4-mini 的价格非常划算。OpenAI 在这个关键节点推出 o3 系列,不止是一次模型升级,更像是一种范式上的声明,也是一种技术坐标系的重新标定。GPT-4.5 虽然更强大,但速度较慢且计算密集,因此 GPT-4.1 为开发者提供了一种更快、更经济的选项。

2025-04-18 11:14:11 786

原创 RAG范式的几种花式变体及技术特性:GraphRAG? 多模态RAG or Deepresearch?

注意,这个用到的大模型是多模态模型;

2025-04-18 11:08:22 584

原创 一文搞懂大模型开发平台Dify

简化和加速生成式AI应用的创建和部署,

2025-04-18 11:04:16 1515

原创 从思考到行动:大模型自主工具调用能力的深度实现

我们探索了结合大模型的深度思考能力提升大模型自主工具调用的能力的两种方式,包括让大模型边思考边行动、以及让大模型提出调用工具的需求。我们发现,通过强化学习的训练方式,

2025-04-17 11:54:45 654

原创 天津大学|1-2合集来啦,92页PPT合集“实事求是”,DeepSeek原理、部署、使用、安全详细解读!

深度解读DeepSeek:部署、使用、安全》(第二篇)是由天津大学自然语言处理实验室团队联合伏羲传语(OpenEval)共同编写的技术文档,聚焦DeepSeek大模型的全流程应用与安全保障。本报告系统解析了模型部署、高效使用及安全防护的核心要点,并融合智慧政务、医疗、教育等场景的实战案例,为开发者与行业用户提供一站式技术指南。

2025-04-15 13:47:27 850

原创 基于深度强化学习的LOB做市策略研究

本文深入探讨了如何利用深度强化学习(DRL)技术,从限价订单簿(LOB)数据中提取特征,以构建一个高效、适应性强的市场做市(MM)智能体。是量化金融领域一个至关重要的问题。市场做市商通过在买卖双方同时报出限价订单,为市场提供流动性和即时性,从而在价格发现过程中发挥关键作用。是当今金融市场中超过一半的市场采用的交易机制。LOB 记录了所有活跃的限价订单信息,是价格发现的重要信息来源。研究表明,LOB 对价格发现的贡献约为 22%。

2025-04-15 11:55:51 928

原创 AI时代,一文彻底搞懂天天被提到的Agent是什么?

AI Agent(智能体)是能够感知环境、自主决策并执行动作的智能实体,它代表了AI从"被动回答"到"主动行动"的进化,正在成为大模型时代最受关注的应用形态之一。AI Agent(人工智能代理)是一种能够并的智能实体。与传统AI系统不同,Agent不仅能回答问题,还能主动完成一系列复杂任务。简单来说,如果把大语言模型LLM)比作一个"超级大脑",那么AI Agent就是给这个大脑装上了"手脚"和"工具",让它能够像人类一样主动行动,而不仅仅是被动回答问题。举个例子,如果你对ChatGPT。

2025-04-12 11:56:35 1189

原创 《DeepSeek知识库》最新手册发布,持续更新!

今年,国产大模型 DeepSeek 火爆全球!无论是科技大厂的技术分享,还是创业团队的创新应用,DeepSeek 都成为了高频关键词。它凭借强大的功能和易用性,正在改变我们处理信息、解决问题的方式。前段时间Manus智能体也引起社区注意,相信很多人都对此感兴趣,在这里给大家讲解下Manus的整体工作流程,大概如下:输入 → 理解 → 知识检索 → 推理 → 规划 → 执行 → 反馈 → 学习 → (循环)

2025-04-12 11:08:14 1031

原创 ChatGPT有了完整记忆!像朋友一样记住所有聊天记录,回复更加私人订制

ChatGPT可以引用了!刚刚,OpenAI发布ChatGPT新能力,支持参考过去所有对话内容,更好根据个人喜好来生成回复。,时长00:26除了保存此前记忆,还能引用过去内容。这意味着ChatGPT从此能,也将过去的聊天记录“升级为”知识库,可以直接从中查询引用。总之就是提供更加私人订制的体验。OpenAI推理领域大佬Noam Brown就表示,这不只是一个产品新功能,偶发性的互动→持续性互动转变,类似于AI从问答客服向朋友同事转变。有人表示,这很有趣啊!AI的记忆将如何发展呢?

2025-04-11 11:56:03 791

原创 通用Agent大赛脑洞炸裂!创新应用大赏~

虽然很多应用目前还处于早期探索阶段,但这些令人眼前一亮的案例,足以让我们窥见一个由 Agent 深度参与和赋能的未来。而且这背后反映的不仅仅是技术的进步,更像是。

2025-04-11 11:55:20 567

原创 一文学会基于LangChain开发大模型RAG知识问答应用

RAG全称是Retrieval-Augmented Generation,即检索增强生成。通俗来讲,就是在用户提的问题的基础上,引入相关资料信息,把“问题+相关资料” 一起给大模型,让大模型在参考资料的约束或提示下回答问题而不是随意发挥,从而期望大模型生成质量更高、更准确的答案,改善大模型”幻觉“、训练数据过时、 知识范围有限等带来的负面问题。在涉及到专业领域知识或企业内部知识的应用场景中,这项技术发挥着重要作用。相比于,RAG时间成本、经济成本和技术难度都更低。

2025-04-10 11:04:29 1672

原创 保姆级教程~本地微调DeepSeek-R1-8b模型

利用特定领域的数据集对已预训练的大模型进行进一步训练的过程。它旨在优化模型在特定任务上的性能,使模型能够更好地适应和完成特定领域的任务。其中最重要的是超参数(如学习率、批次大小和训练轮次)调整优化。转成大白话就是调整大模型中一些参数的值,使其在特定数据集上表现更优秀。

2025-04-10 11:02:50 849

原创 一文搞懂混合专家(MoE)模型

*“路由器”则负责根据输入智能地选择最合适的专家进行处理****,并将选定专家的输出作为最终输出。***一、******专家(Expert)*************混合专家(**MoE**)模型的专家(Expert)是什么?********如何将密集****模型(D**ense**)转换为混合专家(****MoE)模型?这个*******二、路由器(Router)***************混合专家(MoE)模型的路由器(Router)是什么?**********

2025-04-09 11:25:49 576

原创 大模型Agent | 构建AI-Agent的 5大挑战,及解决方案!

构建强制执行这些规范的验证逻辑,并从一小组定义明确的工具开始,而不是许多定义松散的工具。定期监控来查看哪些工具最有效以及哪些定义需要改进。

2025-04-09 11:24:49 905

原创 知识图谱+知识库RAG项目Yuxi-Know及大模型推理内部可视化工具OpenMAV实现拆解

关于可解释,其实是大模型的一个很有趣的话题,我们已经讲过多次了,例如,《注意,“电路”(Circuit)并不是传统意义上的电子电路,而是指一种计算图(computational graph),用于描述语言模型内部的计算过程和特征之间的相互作用。这种“电路”概念是类比于神经科学中的“神经回路”(neural circuits),用于揭示模型内部的信息处理机制。然后呢,这块其实有出来一些新的可视化工具,都是同质化的,。此外,我们再来拆解一个项目,。抓住根本问题,做根因,专题化,体系化,会有更多深度思考。

2025-04-08 20:53:31 1343

原创 拆解:Meta Llama4 的 MoE 架构如何吊打传统 Dense 模型?

Llama 4 系列目前推出了 Scout 和 Maverick 两个版本,它们在架构设计上各具特色,但都围绕着 MoE 架构展开。

2025-04-08 20:48:29 621

原创 大模型|OpenAI完成400亿美元创纪录融资

谷歌宣布由实验室副总裁Josh Woodward接替Sissie Hsiao担任Gemini应用负责人,原负责人将暂休后转任新职。Hsiao在任期间主导推出了对标ChatGPT的Bard产品,此次人事调整旨在强化Gemini的战略推进。Woodward作为AI笔记应用NotebookLM的开发者,其"AI主持人"播客功能已整合至Gemini的Deep Research服务中。此次管理层变动正值谷歌将NotebookLM纳入One AI Premium订阅体系之际,反映其加速整合AI产品线的战略意图。

2025-04-07 11:46:50 819

原创 最强Agent框架开源!智能体设计路在何方?

随着AI智能体的逐渐变强,在张小珺 商业访谈录的Q1季报中,很笃定,AGI的实现可能会在未来2年内,也就是26年底,27年初。所以应对这种技术的快速发展,我们可能需要快速接受的一种范式改变。过去,人类需要学习如何使用计算机界面;而在智能体时代,计算机需要学习如何理解人类意图。同时,这种转变改变了人才需求的本质——从执行具体任务的能力,转向定义问题和指导智能体的能力。好了,这就是我今天想分享的内容。

2025-04-07 11:46:09 720

原创 万字长文,聊聊下一代AI Agent的新范式

聚焦Manus等类似的产品创新、Agent技术前沿、下一代Agent新范式,深度探讨以下问题:1.Manus实测真实效果如何,如何评价其产品设计?2.目前AI Agent展现能力的场景有哪些?3.AI Agent在技术上哪些重大进展?4.Manus等应用为AI Agent的发展带来哪些启示?5.如何看待Agent发展的“下半场”?6.未来AI Agent需强化哪些核心能力?(根据圆桌内容整理:DeepResearch与Manus的对比)(根据圆桌内容整理:下一代Agent特征)

2025-04-05 09:45:00 926

原创 Qwen2.5-Omni震撼发布!全球首个端到端全模态模型

本文将为大家介绍前沿模型Qwen2.5-Omni,代码已开源。Title:Code:Video:Skim:/导读/多模态模型Qwen2.5-Omni取得新突破该论文介绍了Qwen2.5-Omni端到端多模态模型,其创新性地整合了文本、图像、音频和视频的跨模态理解能力,并实现流式文本与自然语音的双向同步生成。关键技术突破包括:1)采用分块处理策略解耦长序列多模态数据,由多模态编码器负责感知、语言模型承担序列建模,通过共享注意力机制强化模态融合;

2025-04-04 10:45:00 592

原创 某警察学院采购DeepSeek大模型部署服务项目需求

一、硬件技术要求\1. 私有化部署专用计算存储设备- 型号:国产品牌- 处理器:12+核 20+线程,基础主频 2.0+GHz- 内存:DDR5 64GB +- 存储:1TB + SSD- 显卡:24GB + 显存- 网络:集成千兆网卡\2. 模型部署能力- 支持 DeepSeek R1-14B/32B 模型动态加载与热更新- 推理延迟≤500ms(批量处理≥100 请求 / 秒)\3. 其他要求- 提供三年原厂维保(7×24 小时响应,4 小时到场)

2025-04-04 08:00:00 630

原创 AI Agent 新探索:构建 AI 原生团队,使能 AI 员工

今天我们深入探讨了 AI Agent 的新范式:从被动工具到数字员工的转变。当我们回顾整个演讲,核心信息非常清晰—AI 不再只是我们使用的工具,而是即将成为我们的团队成员。想象一下,十年前我们如何看待智能手机。当时,它们被视为 “高级手机” — 一个通讯工具,只是增加了一些新功能。而今天,智能手机已经彻底改变了我们的生活和工作方式。AI 正经历类似的转变 — 从 “高级计算工具” 到 “数字同事” 的转变。构建 AI 原生团队需要从沟通文化和技术基础两方面入手。

2025-04-02 10:07:26 399

原创 基于图神经网络的高频交易系统

近年来,随着计算机硬件和人工智能技术的飞速发展,量化投资作为一大投资类别在中国市场迅速崛起。量化投资经历了从最初依赖人工投资理念的自动化处理,到如今基于数据、统计和人工智能构建全自动交易系统以实现稳定盈利的演变。高频交易 (HFT) 作为一种利用强大计算机程序在极短时间内执行大量订单的交易方法,正逐渐崭露头角。成熟的HFT系统能够以极低的风险实现盈利,类似于固定收益。然而,在特定市场中,HFT的整体容量相对有限。随着越来越多的公司和机构涌入这一领域,竞争日益激烈。要在竞争中脱颖而出,企业必须掌握领先的技术,

2025-04-02 10:06:06 346

原创 Trae 功能更新:内置 DeepSeek-V3-0324、支持OpenRouter模型接入、 WSL 连接及设备预览优化

Trae 目前内置了一系列表现出色的模型,同时支持自定义模型接入。而本次更新则新增了对 OpenRouter 的支持,接入 OpenRouter 后,用户可以更灵活地配置和使用自定义模型,通过 OpenRouter 实现模型与多种后端服务的交互,提升模型使用的扩展性和灵活性。用户可以在自定义模型接入界面便捷地完成 OpenRouter 的接入。

2025-04-01 10:16:00 400

原创 DeepSeek V3 0324更新,一文教你如何用AI编程提高工作效率,小白都可以直接上手

OK,今天关于DeepSeek V3 用法的分享就到这里啦,目前来说V3在前端展现出来的能力还是非常强大的,用来编写一些HTML网页绰绰有余。但缺点也很明显,一方面是多次沟通后,会出现卡死或者网页黑屏等问题无法解决;另一方面是后端能力不够强大,代码时常无法正常工作。不过相信在不久的将来DeepSeek发布了更强大的版本后这些问题一定会迎刃而解,让我们拭目以待。

2025-04-01 10:08:59 1605

原创 继续卷 又一个agent-智谱AutoGLM

今天智谱在2025中关村论坛上发布最新Agent 产品AutoGLM,具备深度研究能力和操作能力,可自主打开并浏览网页,完成从数据检索、分析到生成报告。我说一下使用体验,后台不要又来骂我推agent了。人家这是开源的。别bb了。超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。跨 app :AutoGLM 支持跨 App 来执行任务。

2025-03-31 22:09:02 724

原创 智谱悄咪咪发布的AutoGLM,直接颠覆我的想象。

他们发了一个AGI进程图,最好玩的还是用了《银河系漫游指南》里面那个终极答案42当了一个梗,而这个AGI进程图其实就是对标的人脑,而AutoGLM,就是AI,使用工具的能力。原始人类在70万年前,能走出非洲,依靠的,就是工具和火。而我,其实已经在3天前就拿到了AutoGLM的内测,在被封印了3天之后,也终于可以发出这篇文章。3天前第一次使用AutoGLM的那晚,它给我带来的震撼,给我带来的头皮发麻,到今天,我依然记忆犹新。现在,任何手机,你都可以把它,进化成贾维斯了。

2025-03-31 22:08:27 824

原创 17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏之风!例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放,ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。针对这一场景,来自。让大模型在8个游戏中互相PK,评测各主流大模型的推理能力。游戏PK避免模型“背答案”;除了输赢之外,GameBoT还评估大模型输出的中间步骤,实现更细粒度和客观的测评。

2025-03-29 11:46:48 971

原创 阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写

3 月 27 日凌晨,阿里通义千问团队发布 Qwen2.5-Omni。这是 Qwen 系列中全新的旗舰级多模态大模型,专为全面的多模式感知设计,可以无缝处理包括文本、图像、音频和视频的各种输入,同时支持流式的文本生成和自然语音合成输出。从此以后,你可以像打电话或进行视频通话一样与 Qwen 聊天!可以说是「语音聊天 + 视频聊天」都实现了。体验地址:https://chat.qwen.ai/

2025-03-29 11:31:34 581

原创 2025 AI Agent (多智能体)平台设计和技术实现指南

1 介绍了多智能体系统的整体流程,

2025-03-28 11:55:22 1019

原创 关于智能体(AI Agent),不得不看的一篇总结

智能体(Agent)是一种能够感知环境、制定决策并采取行动以实现特定目标的AI系统,一般具有记忆、规划、采取行为、使用工具等基本能力,如下图所示,其中规划中有思维链、能进行反思、目标分解。与传统AI系统不同,智能体具有自主性、持续性和适应性,能够在复杂环境中持续学习和优化自身行为。

2025-03-28 11:41:00 1408

原创 杀疯了!卷积LSTM时序预测 !!

基于卷积LSTM的时间序列多尺度建模方法,通过充分利用多尺度信息与时序依赖性,展现了在复杂数据预测中的巨大潜力。在以后的可以进一步探索注意力机制、多任务学习、模型压缩等方向,以适应更大规模、更高分辨率的数据应用场景。

2025-03-27 11:30:58 449

原创 论文浅尝 | KnowGPT:利用知识图谱增强大型语言模型的专业领域问答能力(NeurIPS2024)

本研究提出的KnowGPT框架,成功解决了LLM在专业领域内问答时可能遇到的知识不足的问题。通过巧妙地结合KG提供的结构化信息和支持,KnowGPT实现了更加精准的回答生成,为未来进一步探索LLM与外部知识源之间的协同作用奠定了坚实的基础。特别是,黑盒知识注入方法展示了其在编码知识入LLM方面的效率,并证明了这种方法在仅使用模型API的情况下也能对GPT-3.5进行有效改进。

2025-03-27 11:22:19 427

原创 大模型2025年3月报告分析2:智能体AI Agent

AI 智能体 Agent 的评测报告来了。【*智能体Agent深度分析介绍*】主要介绍各个模型在SuperCLUE通用榜单智能体Agent任务上的表现,包括对国内外模型的表现对比、九大任务场景的模型表现、推理模型与基础模型的的表现对比、当前模型在Agent能力上的不足。【智能体Agent任务介绍】主要考察在中文场景下基于可执行的环境,LLM作为代理,在单轮或多轮对话中调用工具完成任务的能力。【智能体Agent任务特点】1. 单轮、多轮对话:当前对话轮数覆盖1-6轮,解题步数覆盖2-14步。2. 任务覆盖场景

2025-03-25 15:49:48 1301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除