自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1075)
  • 收藏
  • 关注

原创 DeepSeek 入门到精通!(清华大学版)

今天给大家推荐一份清华 DeepSeek 使用手册,真的好好用~~清华大学团队出品的 DeepSeek 学习手册,深入解析国产开源 AI DeepSeek 的强大功能,让你从入门到精通,轻松掌握 AI 高效玩法!真的太强了!完整报告104页,文章长度有限无法完整展示,完整资料已经打包放到了网盘,需要的同学自取我的DeepSeek部署资料已打包好(自取↓)但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!❗️为什么你必须了解大模型?

2025-02-10 16:27:46 3221

原创 保姆级实战教程:安装部署私有化大模型,并投喂数据

想要部署属于自己的大模型,会不会很困难?其实不是的,现在是越来越简单。潘哥今天就做一个简单的示范,让大家都能轻松搞定在自己的电脑哦上,本地化部署并运行私有化大模型,并且为我们自己的大模型投喂数据。这样,就可以建立自己的数据仓库,没错,就可以定制垂直行业或细分领域的私有化大模型了。酷~~~首先,我们会用到Ollama,功能是运行大模型。Ollama是一款LLM也就是大型语言模型服务工具,可以极大简化在本地运行大语言模型,极大降低了使用大语言模型的门槛,而且是开源的哦。

2025-01-28 07:00:00 6111

原创 国产AI大模型「医疗十大应用场景」案例盘点,推动医疗健康领域智能升级

人工智能技术的浪潮正席卷全球,AI大模型以其卓越的数据处理能力和深度学习能力,正在成为医疗健康领域变革的关键力量。本文将深入探讨AI大模型在医疗十大场景中的创新实践,展示其提升医疗服务效率、赋能临床决策、推动行业智能化转型的广阔前景。基于海量医疗数据,辅助临床诊断决策AI大模型通过分析海量医疗数据,能够辅助医生进行更准确的诊断。例如,百度灵医大模型利用其强大的数据处理能力,通过API或插件嵌入的方式,在200多家医疗机构中展开应用,显著提升了诊断的准确性和效率。

2024-12-27 11:24:15 6407

原创 七款国产AI大模型:Kimi,智谱清言,通义千问,文心一言,豆包,天工AI,讯飞,各自的优缺点是什么?

优点:Kimi这货,免费还能多平台支持,不光能实时联网,处理长文本也不带喘的,简直就是程序员的贴心小棉袄啊。缺点:不过呢,这家伙在特定领域翻译上就有点儿不太行,有时候还会抽风宕机,咱也不知道它为啥这么脆弱。优点:智谱清言是清华系的,不光会码代码,还能画图表,简直就是学霸中的学霸。尤其是它的多模态处理和图片理解能力,真心厉害。缺点:不过,别太指望它啥都懂,遇到特别复杂或者前沿的东西,它有时候也会掉链子。优点:阿里云的招牌产品,超大规模,能聊会说,还能处理多语言,厉害得不得了。

2024-12-12 16:24:48 6253

原创 什么是算法工程师?算法工程师有前景吗?

什么是算法工程师?算法工程师说目前最炙手可热的岗位。虽然算法工程师一直被频频提及,但是许多人对这个岗位的了解还知之甚少。那么算法工程师究竟是做什么的?前景怎么样呢?下面我们来一起解开这个高薪技术岗位的神秘面纱!

2023-10-02 08:15:00 3004

原创 北航:2025年工业大模型白皮书(工业大模型全拆解:技术、落地、生态)

这份《2025年工业大模型白皮书》长达145页,由北航与蚂蚁工厂联合发布,系统梳理了工业大模型的发展现状、技术特点和落地路径。不同于通用大模型,工业场景对精度、稳定性和实时性有着更高要求,模型训练也需要应对高噪声、小样本、多变量等复杂数据环境。白皮书通过新能源车、高端制造、航空航天等典型案例,拆解了模型如何在生产、检测、预测、调度等环节中真正“干实事”。

2025-05-06 14:05:52 448

原创 AI Agent 入门指南:从生活场景到行业应用(新手必看)

想象你有一个 24 小时在线的 “数字管家”:早上它根据天气自动调整空调温度,听到你说 “我出门了” 就远程锁门,上班时帮你过滤垃圾邮件并标记重要信息,下班前又悄悄订好你爱吃的寿司 —— 这个能主动理解需求、自主完成任务的 “数字管家”,就是 AI Agent(智能体)。简单来说,它是能在数字世界里 “自主行动” 的智能程序,就像手机里的 Siri 能听懂指令打电话,扫地机器人能自己规划路线避开障碍物,本质上都是 AI Agent 在发挥作用。感知能力。

2025-05-06 13:53:17 584

原创 字节等完整复现 Qwen2VL,开源数据和代码

多模态大型语言模型 (MLLM) 领域取得了快速发展,但仍存在重大挑战:许多最先进的模型并非完全开源,训练数据、过滤技术和完整代码库等关键组件仍为专有。此外,预训练这些模型所需的计算资源通常会将研究限制在资金充足的工业实验室中。图 1:Open-Qwen2VL 在预训练和监督微调(SFT)阶段的架构,展示了 SigLIP 视觉编码器、视觉投影仪(预训练中的 AvgPooling、SFT 中的 MLP)和语言模型组件。

2025-05-05 15:37:01 629

原创 AI 大模型应用开发全攻略

为什么大模型能“记住”之前的对话呢?其实,它并不是真的记住了,而是每次请求时,系统都会给它之前对话的内容。大模型的每次请求调用都是无状态的,它的行为完全取决于你每次提供的信息。那么,大模型的提示词(Prompt)有什么用呢?提示词可以进一步控制(或者说覆盖)大模型的行为,具有高优先级,但同时也存在不稳定的风险。希望这样的解释能帮助你更好地理解大语言模型的工作原理和它们的应用方式。

2025-05-05 15:31:49 956

原创 产品经理如何用AI提升产品管理工作效率-考勤AI助理一招教你搞定!

今天主要以点带面式的给你分享了四个AI助理,它们是目前我自己工作中运用最有效,确实帮我提升工作效率的助理,希望对你有所启发。第一个:考勤AI助理。它是我使用钉钉构建的一个业务知识型AI助手,主要帮我解决每天产品咨询类问题,提效至少30%;第二个:SaaS需求文档助理。它是我用智普清言创建的自定义需求文档助手,帮我解决文档下笔难和语言不精炼的问题,至少节约10%-20%文档时间;第三个:SaaS产品上线公告。它也是我用智普清言创建的自定义文档助手,帮我解决上线公告下笔难得问题,至少节约10%文档时间。

2025-05-03 13:15:00 891

原创 Qwen3 vs Llama 4!开源 AI 之王花落谁家?开发者用脚投票?

最近,AI圈炸锅了!Meta 的 Llama 4 和阿里的 Qwen3 正在上演一场 “开源王位争夺战”。这不是普通的技术比拼,而是决定未来 AI 生态话语权的终极对决。今天咱们就用大白话唠唠,这两个模型到底谁更能打?Meta 给 Llama 4 套了个 “伪开源” 枷锁:月活超 7 亿的公司得单独申请授权,衍生模型还得强制挂 “Made with Llama” 水印。这就像买了辆车却被要求必须贴满车厂 logo,否则就违法。

2025-05-03 08:30:00 652

原创 浙江大学开源书籍《大模型基础》

浙江大学出的这个开源的书籍《大模型基础》非常值得一看,写作风格挺吸引人,是一个易读、严谨、有深度的大模型教材。文末附下载链接。

2025-05-02 13:00:00 1853

原创 大模型、智能体、AIGC全解析:从概念原理到应用的一站式指南!

大模型(Large Model)指的是利用海量数据训练而成的深度学习模型,它们具备强大的数据处理和生成能力。例如,OpenAI的GPT系列、深度求索的deepseek以及百度的文心一言都是典型的大模型代表。

2025-05-02 09:00:00 511

原创 Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!

今天,通义千问Qwen团队正式开源推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。最新的Qwen3系列模型具备双模推理能力(深入思考/快速响应)、支持119种语言及方言,并强化了Agent功能与代码执行能力,全面满足复杂问题处理与全球化应用需求。其中,旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。

2025-05-01 13:00:00 557

原创 RAG 与 MCP 如何以不同方式解决大模型的局限性

Claude和GPT-4o等大型语言模型 (LLM) 功能强大,但也面临两个主要限制:它们包含的知识是(更具体地说,是在训练时点固定的),并且决定它们一次可以处理多少信息的是有限的。(Retrieval-AugmentedGeneration, RAG) 和(Model Context Protocol, MCP) 是两种可以解决这些限制的方法。在本文中,我们将简短概述这两种方法的工作原理,以及区分它们的一些差异。

2025-05-01 09:00:00 662

原创 RAGFlow Agent 使用案例教程——构建智能客服

智能客服的应用场景非常广泛,如商品咨询,售后问答,配件更换,转人工客服等场景,今天将给大家介绍如何使用 RAGFlow 的来搭建一个商品智能客服,实现能够针对上述四种场景给出不同的解决方案。是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为不同规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。

2025-05-01 07:00:00 906

原创 大模型微调新手全流程友好指南

在深入讲解之前,我们先来简单地理解一下“微调”的概念:大模型微调(Fine-tuning),就是在预训练好的大语言模型(例如Qwen、GPT系列、DeepSeek等)基础上,利用特定的数据集对模型的参数进行小规模训练,以更好地适应特定任务或领域。比如,你有一个通用的语言模型,但你想专门用来写金融报告或者进行客服问答,那么通过微调,这个模型就能更高效地完成这些特定任务。

2025-04-30 22:26:46 686

原创 浙江大学:《大小模型端云协同赋能人机交互》(可下载)

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。所以我综合了大模型的所有知识点,给大家带来一套。

2025-04-30 13:57:01 298

原创 【一文读懂】替代DeepSeek成为国产第一大模型,阿里通义Qwen3发布,大模型们都在较什么劲?

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。从 MoE 厨房的“点菜制”,到”深度思考“按钮下的“学霸模式”,再到 Apache-2.0 敞开的大门,大模型的应用成本一降再降。依靠出色的评测数据,

2025-04-30 13:54:15 765

原创 74页行业洞见,从DeepSeek爆火看2025年AI的发展(免费下载

这份报告以投资视角切入,深度解析DeepSeek如何凭借开源策略和80%成本压缩技术打破AI垄断,揭示Manus通过多智能体协同架构在GAIA基准测试中超越OpenAI 16.4%的底层逻辑。报告不仅对比了两者在金融分析(如特斯拉股价预测框架)、旅游规划(重庆3天2夜智能行程生成)等场景的实战差异,更预判未来18个月将诞生3家估值超50亿美金的AI Agent企业,直指「智能体即服务」赛道爆发前夜。文中还曝光字节跳动内部AI转型手册关键章节。

2025-04-29 14:55:38 392

原创 阿里Qwen3大模型深度解析:技术革新与开源生态全景

凌晨五点,Qwen3正式发布并开源了8款「混合推理模型」Qwen3-235B-A22B(2350多亿总参数、 220多亿激活参)Qwen3-30B-A3B(300亿总参数、30亿激活参数)在编码、数学、通用功能等方面的基准测试评估中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等其他顶级型号相比,取得了具有竞争力的结果。此外,小型 MoE 模型1.混合推理模式:人类思维的AI映射所有模型均基于Apache 2.0协议开源,支持商业用途。

2025-04-29 14:45:05 1132

原创 李飞飞等14位斯坦福微软大牛等撰写《AGENT AI: 综述多模态交互的前沿展望》免费分享

多模态人工智能系统可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有前景的方法是将它们作为智能体嵌入到物理和虚拟环境中。目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这样的环境有助于模型处理和解释视觉和上下文数据,这对于创建更复杂、更具上下文意识的人工智能系统至关重要。例如,一个能够感知用户行为、人类行为、环境物体、音频表达和场景整体情绪的系统可以用来通知并指导智能体在特定环境中的响应。

2025-04-28 15:09:29 845

原创 【大模型入门】和大模型相关的一些术语(更新中)

一般指1亿以上参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型也有了。大语言模型(Large Language Model,LLM)是针对语言的大模型。:这些一般指参数的个数,B是Billion/十亿的意思,175B是1750亿参数,这是ChatGPT大约的参数规模。目前OpenAI的模型参数已经超过万亿(Trillion),DeepSeek发布的R1模型达到671B。

2025-04-28 14:56:27 779

原创 2025年大模型算法工程师春季社招面试经验汇总

自我介绍是对背景和工作经历的概述,所以尽可能突出你自己做的比较好且有把握的项目,这样面试官在提问的时候也会因为你自己提到的内容而往这方面走,不过有一些面试官就是会找简历上和自己业务相关或者感兴趣的项目来进行提问,所以你在简历上提到的项目都需要非常熟悉。

2025-04-27 15:10:04 882

原创 【大模型入门】什么是RAG,RAG综述!看完少走99%弯路!

看完本篇分享的每个步骤大家再返回文章开头看RAG全貌是不是清晰很多。RAG系统通过数据准备数据检索和LLM生成三个核心环节把外部知识和大语言模型能力完美结合,使得用户能够收获更专业更准确的知识(从文档中获取的内容尽量避免大模型幻觉)。RAG系统因其知识随时更新,回答检索靠谱被广泛应用于智能客服、学习助手等领域。作为RAG系统的使用者甚至开发者,我们只有了解RAG系统的核心原理,才能找准RAG系统提升优化的思路,让RAG系统变得更加高效可靠。

2025-04-27 14:45:46 892

原创 清华大学:大模型工具学习(中英文)

本文探讨了人工智能在工具使用方面的能力,特别是基础模型如何通过工具学习来扩展其能力,以解决复杂任务。

2025-04-25 22:23:31 150

原创 大模型2.0产业发展报告——商业落地创涌而现

报告详细阐述了个人大模型和企业大模型的应用场景,从智能个人助理到企业智能体,展示了大模型如何重塑生产力与生产关系。报告还展望了大模型的未来发展趋势,包括去概率化模型、目标驱动架构及与其他技术的深度融合,预示着大模型将引领新一轮的产业变革与社会进步。通过深入分析大模型2.0的内涵与价值,报告为读者呈现了一个智能化、高效化的未来蓝图,为产业界和学术界提供了宝贵的指导与启示。同时,科技巨头的投资热潮和人才需求持续增长,反映了大模型技术在各行业的深远影响。

2025-04-25 21:50:22 237

原创 自然语言处理:大模型理论与实践(752页 PPT 合集)

本教材以自然语言处理中语言模型为主线,主要内容分为三部分,包括语言模型基础、大模型理论和大模型实践。本教材以语言模型为主线,涵盖了从基础理论到高级应用的全方位内容,逐步引导读者从基础的自然语言处理技术走向大模型的深度学习与实际应用。尤其是,在大模型部分涵盖了大模型架构、多模态大模型结构、预训练、微调、提示工程、涌现、评估、探讨等内容,知识体系严谨完备。本教材不仅系统地提供了大模型的基础知识和前沿技术,还能让读者在实际操作中提升自身的开发和研究能力,探索大模型的深层理论和广泛应用。本报告共计:725页。

2025-04-25 21:38:14 356

原创 大模型典型示范应用案例集(219页) 99 个绝彩案例,带你解读DeepSeek大模型如何重塑百行千业!

《大模型典型示范应用案例集》由中国多家企业和研究机构共同编写,集中展示了2024年大模型在各个领域的应用案例。这些案例涵盖了智能应用、生态服务和行业赋能等多个方面,展示了大模型技术在推动科技创新、产业升级和经济社会发展中的重要作用。《案例集》围绕行业赋能、智能应用、生态服务三大板块,案例覆盖工业、金融、医疗、教育、文创等各行业,全面展现大模型在各个产业垂直场景的应用实践。文│2024世界人工智能大会。

2025-04-25 16:34:02 330

原创 大模型炼丹大师必备《深度学习调优指南中文版-系统性优化模型》高清pdf分享

深度神经网络的实际应用需要大量的努力和试错,但目前缺乏记录实际有效方法的资源。学术论文往往忽略过程,只呈现原理,而机器学习工程师忙于工作,少有时间总结调参经验。教科书也倾向于理论而非实用指南。我们团队由五名深度学习领域的研究人员和工程师组成,将深度学习应用于多个领域,并基于训练神经网络、教学和提供实践建议的经验编写了这份文档。深度学习虽然已发展成熟,但在工程领域仍处于初级阶段,我们希望这份文档能鼓励系统化实验细节。这份文档反映了我们在超参数调整等方面的困难和在工作中遇到的重要问题。

2025-04-25 15:07:59 546

原创 用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT,以实现更智能的 AI

检索增强思考(RAT)通过引入模仿人类思维过程的推理循环,弥补了这些差距。

2025-04-25 14:46:00 698

原创 一文读懂AI大模型:概念、分类与应用场景

想象一下,你有一个超级学霸朋友,他不仅读过图书馆里所有的书,还能瞬间总结知识点,甚至帮你写论文、设计PPT……这就是大模型!大模型,全称“大规模预训练模型”,是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。这类模型通过海量数据的训练,能够理解和生成人类语言,展现出接近人类的对话和推理能力。通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高训练大模型需要巨大的计算资源。

2025-04-24 15:26:37 893

原创 3小时玩转chatgpt-《OpenAI大模型指南》中文版免费分享

国内不能访问OpenAI的官方网址,找到一个网友整理翻译的中文版官方指南,对于快速掌握官方API非常不错资源。OpenAI API 可以应用于几乎所有涉及生成自然语言、代码或图像的任务。我们提供了一系列不同能力级别的 模型,适用于不同任务的,并且能够 微调(Fine-tune) 您自己的自定义模型。这些模型可以用于从内容生成到语义搜索和分类的所有领域。设计提示词 本质上就是对模型进行“编程”,这通常是通过提供一些指令或几个示例来完成。

2025-04-24 15:07:39 1004

原创 北京大学《DeepSeek与新媒体运营》(实战干货,30多个落地案例)(附PDF下载)

报告聚焦DeepSeek大模型的技术特点及其在新媒体领域的创新应用,涵盖技术解析、场景落地、工具对比及行业挑战,为新媒体运营的智能化转型提供了系统化解决方案。报告上半部分系统介绍了DeepSeek R1、V3等模型在推理、生成、多模态等方面的适配场景,以及和GPT、Claude等模型的差异。我的DeepSeek部署资料已打包好(自取↓)但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!❗️为什么你必须了解大模型?

2025-04-23 14:36:00 852

原创 【MCP实战】手把手教你服务端的开发与功能验证

定义与 LLM 交互的模板。

2025-04-23 14:15:40 752

原创 3 个基于 DeepSeek 的超实用项目【建议收藏】

咱平时工作,是不是经常在网页上做一些重复又繁琐的事儿?像填表单、商品比价、查看运营数据,虽说不难,可特别费时间。给大家安利一款最近超火的开源工具 ——Browser - use。它就像是给 AI 安了双灵活的手,能直接操控浏览器,不管多复杂的网页自动化操作都不在话下!它的厉害之处在于,不需要你是技术大神,只要把任务简单描述一下,它就能自动执行。不管是对比不同模型的价格、在线购物自动结账,还是根据简历自动投合适的职位,这些复杂任务都能轻松搞定。

2025-04-22 16:23:56 845

原创 一文读懂 RAG 中的 embedding mode

在了解嵌入模型之前,得先搞清楚 Embedding 的概念。简单来说,Embedding 是一种 “神奇魔法”,能把离散的非结构化数据,比如文本里的单词、句子或者整篇文档,转化成连续向量。在自然语言处理(NLP)领域,它的作用尤为突出。计算机 “看不懂” 文本内容,而 Embedding 就负责把文本变成固定长度的实数向量,让计算机能够理解和处理。

2025-04-22 16:20:52 819

原创 一文详解A2A(Agent-to-Agent)与MCP技术解析与关系!!!

MCP:模块化的客户端-服务器架构。 MCP 由 Anthropic 提出,其核心是建立一种标准化的 客户端-服务器架构。典型架构包括三部分:MCP Host(承载 AI 模型的应用,如对话界面)、MCP Client(主机应用中的“连接器”模块)和 MCP Server(外部数据源或工具的提供者)。MCP 的架构强调松耦合和标准化——每个 Server 专注于提供一种能力(例如数据库查询、文件检索等),Host 应用则通过 Client 动态选择需要哪个能力,从而避免为每个新工具写定制集成。​ A2

2025-04-21 16:21:26 1445

原创 LLaMA Factory 实战—单卡 3 小时训练你的专属大模型!

LLaMA Factory 在今后还将不断升级,欢迎大家关注我们的 GitHub 项目。同时,我们也将本文的模型上传到了 Hugging Face,如果您有资源,一定要亲自动手训练一个大模型 Agent!

2025-04-21 16:17:48 1001

原创 什么是 LLM(面向 Web 开发者)

我们先从基础开始,逐步构建对 LLM 的理解。在谈论 AI 和机器学习时,你会经常听到“模型”这个词。一个模型,本质上就是一个数学函数,它将输入转换为输出。但不同于传统编程中你需要写出明确的规则,模型是通过从数据中学习模式来工作的。以下是几个例子:给模型输入大量猫和狗的图片,它就能学会区分它们(分类模型)输入房产数据,它能发现“面积越大,价格越高”这样的规律(回归模型)给它浏览记录,它就能猜测你可能会买什么(推荐模型)

2025-04-18 16:09:41 591

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除