- 博客(625)
- 收藏
- 关注

原创 盘点国产十大最实用的AI大模型!(深度解析)
在这个由数据驱动的时代,人工智能(AI)已经成为推动世界进步的超级引擎。从日常的语音助手到复杂的医疗诊断,AI的应用无处不在,它的影响力正以前所未有的速度扩展。今天我们来聊聊那些国产的AI大模型,深度盘点一下国产最实用的十大AI大模型百度文心大模型包含NLP(自然语言处理)、CV(计算机视觉)和跨模态大模型。在自然语言处理领域,文心ERNIE系列模型具有强大的小样本学习能力和基本推理能力。在计算机视觉领域,百度提出了基于视觉掩码技术的文心VIMER-CAE,具有强大的图像分割能力。
2024-12-10 14:08:23
7619

原创 我们为什么要用本地大模型?——坤叔的本地大模型入门指南
大模型,在2023年主要称之为大型语言模型(Large Language Models),是一种基于人工智能和机器学习技术构建的先进模型,旨在理解和生成自然语言文本。这些模型通过分析和学习海量的文本数据,掌握语言的结构、语法、语义和上下文等复杂特性,从而能够执行各种语言相关的任务。LLM的能力包括但不限于文本生成、问答、文本摘要、翻译、情感分析等。我们最熟悉的大模型,莫过于CHATGPT。但我们最常用的大模型,未必是CHATGPT。
2024-05-23 10:52:45
9152

原创 值得收藏!十大中国流行的AI大模型企业及平台汇总
在当今这个信息化迅速发展的时代,人工智能技术已经成为推动社会进步的重要力量。特别是在我国,AI大模型技术的发展速度令人瞩目,各种平台纷纷涌现,表现出强大的技术实力和广泛的应用前景。
2024-05-16 13:37:12
9112

原创 一文读懂 LLM 训练:从预训练到微调【大模型行业应用入门系列】
LLM Training 是指大型语言模型(LLM)的训练过程。作为一种采用超大规模数据进行预训练的深度学习模型,LLM 训练目标是培养出一个能够理解和生成自然语言文本的模型。在这个过程中,LLM 通过处理海量文本数据来学习语言的规律、语义和上下文关系等训练方式,可以获得丰富的语言知识和智能,从而使得能够自动理解和生成人类语言。通常而言,这种训练过程通常需要大量的计算资源和时间,以便模型能够充分地学习语言的各个方面。
2024-04-16 15:39:20
6964

原创 全民AI时代:手把手教你用Ollama & AnythingLLM搭建AI知识库,无需编程,跟着做就行!
本地运行大模型耗资源,需要选择较小的模型作为基础模型。在终端中运行时可能会出现 CUDA 错误,表示显存不足,导致提供的端口失效。中文支持不够完善。3. 文中提到的技术软件工具有:Ollama、Chatbox、Open WebUI、向量数据库、嵌入模型、本地模型 Gemma、AnythingLLM。
2024-04-10 11:10:50
9199

原创 一文吃透多模态:多模态大模型的探索 五大研究方向与十大应用领域!
理想中的多模态大模型具备跨模态的泛化理解和生成能力,其更符合人类感知世界的方式,其或能进一步打开AI能力的上限。产业界也在积极探索多模态大模型可行的技术路径,在多模态领域“复刻”大语言模型的成功。但目前多模态大模型的技术栈也尚未收敛,多模态学习和跨模态对齐仍为技术难点,未来产业发展仍有无限可能。在大模型兴起之后,产业也试图在图像、视频、音频等更多模态领域复现“Scaling Law”的成功,继续实现大模型的“智能涌现”。• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
2024-04-07 18:30:11
7578
原创 【大模型微调】入门大模型微调,这些必备知识必须了解!
所谓大模型微调,指的在已有的大规模预训练模型基础上,通过对标注数据进行训练,进一步优化 模型的表现,以适应特定任务或场景的需求。不同于RAG或者Agent技术,通过搭建工作流来优化模型表现,微调是通过修改模型参数来优化模型能力,是一种能够让模型“永久”掌握某种能力的方法。
2025-05-19 14:55:13
705
原创 终于有人把AI大模型三种模式:Agent、copilot、embedding讲清楚了!
今天来和大家讲讲AI大模型的三种模式:agent、copilot、embedding
2025-05-19 14:47:42
531
原创 GitHub 热门学习笔记《从零构建大模型》,建议收藏!
今天给大家推荐一份 GitHub 上很火的机器学习学习笔记《从零构建大模型》,目前已经收获 1.6K stars,这份笔记完美展示了从零构建 LLM 的技术路线图,既有理论深度,又包含实践要点。每个核心概念都配有清晰的示意图,便于理解和实践。建议先掌握基础概念,再逐步深入理解高级特性,这样能形成更系统的知识体系。
2025-05-16 13:50:19
500
原创 狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!
LiteLLM 是由BerriAI团队开发的开源神器,它通过标准化OpenAI格式的API接口,让开发者可以无缝调用包括OpenAI、Azure、Anthropic、Hugging Face等在内的100+主流大语言模型。无论是企业级AI应用开发,还是个人AI工具搭建,这个项目都能让你摆脱"API接口地狱",真正实现"一次开发,全平台通用"。
2025-05-16 13:40:48
474
原创 DeepSeek火爆出圈:一文详解使用方法及接入API
国产AI大模型 DeepSeek 直接登顶多个国家 AppStore 免费App排行榜第一, 为什么DeepSeek会如此火爆?
2025-05-15 13:47:26
578
原创 AI从0到1喂饭教程|什么是大语言模型(LLM)?
LLM(Large Language Model,大语言模型)是指基于深度学习、拥有大量参数(通常为十亿级以上)、在海量文本数据上进行训练的自然语言处理模型。它的目标,是让机器理解语言、生成语言、参与任务型语言交互。这类模型的输入是自然语言文本,输出也是自然语言文本,能力涵盖写作、翻译、摘要、代码生成、问答、逻辑推理、知识记忆等。它不仅仅是“聊天机器人”的技术底座,而是一种通用的语言认知引擎,是未来AI产品形态的中枢神经系统。
2025-05-15 12:02:53
890
原创 一文读懂大模型思维链(Chain-of-Thought)、ToT、GoT、PoT等提示词工程框架
2025年,DeepSeek R1备受大众热烈关注。与以往的GPT系列、文心一言、通义千问等生成模型有所不同,它属于推理模型,显著增强了大模型处理复杂问题的能力。DeepSeek R1之所以具备推理功能,得益于其在模型中运用了思维链(Chains of Thoughts,CoT)。思维链这一概念最早由Google Brain高级研究员Jason Wei和Xuezhi Wang提出,并在2022年1月发表的论文“Chain-of-Thought Prompting Elicits Reasoning in L
2025-05-14 11:46:12
1010
原创 5 个让你的 AI 智能体“开挂“的 prompt 设计模版,效果惊人!
在 AI 时代,与智能体高效沟通是解锁其无限潜力的关键。你是否常常觉得 AI 给出的回答差强人意?其实,不是智能体 “笨”,而是你的提问方式限制了它的发挥。掌握以下 5 个精心设计的 prompt 模版,就能让 AI 像开了挂一样,输出超乎预期的优质内容!
2025-05-14 11:27:03
706
原创 产品经理如何利用AI大模型打造不可替代的职业竞争力?看完这一篇你就懂了!
岁月流转,不少产品经理在跨过30岁门槛后,往往会萌生出职业危机感。但这并非意味着创业或晋升为高管才是唯一的出路。实际上,只要持续深耕专业技能、不断沉淀经验,就能在团队中扎根立足,使薪酬水平与年龄增长相匹配。产品经理这一职业,其核心竞争力源于深厚的专业知识储备和丰富的实践经验积累,而非单纯依靠高强度的体力消耗与大量加班。接下来,本文将深入探究如何运用AI大模型技术,进一步提升产品经理的职业价值,为个人职业发展筑牢更广阔的安全屏障。
2025-05-13 11:56:28
768
原创 大模型入门指南 - Quantization:小白也能看懂的“模型量化”全解析
DeepSeek、Qwen等大模型的参数规模常常达到数百亿之巨,若采用全精度(FP32)进行存储与推理,不仅会消耗大量的显存资源,推理速度也较为缓慢。模型量化技术通过将浮点数转换压缩为低精度整数,能够大幅缩减大模型的体积,使其减小至原来的四分之一甚至更低,同时还能极大地加快推理速度。以拥有1750亿参数的模型为例,使用FP32格式存储需要700GB的显存空间,而经过量化处理转换为INT4格式后,所需显存仅为10GB左右 。
2025-05-13 11:31:14
664
原创 大语言模型(LLM)应用实践:透过检索增强生成(RAG)洞察大语言模型应用的核心本质
在近期对大语言模型(LLM)实际应用的深度探索中,RAG(Retrieval Augmented Generation,检索增强生成)这一技术架构频频闯入我的视野。它绝非仅仅是一个专业术语,更是架起知识与智能之间的坚实桥梁。要透彻理解RAG应用的完整架构,从基础概念、技术方案选型,再到最终的部署上线,这一过程既复杂又需要细致入微的钻研。鉴于此,我计划推出一个系列博客(后续也可能以推文合集的形式呈现📘),将与你一同抽丝剥茧,拆解RAG的每一处关键环节,通过真实的实战案例,深度剖析LLM应用背后的技术细
2025-05-12 14:13:24
833
原创 一文解惑,带你明晰大模型的基本概念,究竟什么是大模型?
在当今数字时代,数据被视作新时代的石油资源,而大数据模型则是推动这个时代发生变革的核心动力。究竟何为大模型?简单来说,大模型是借助海量数据,运用前沿算法与技术进行训练,最终形成的具备强大预测及决策能力的模型。这类模型在众多领域均彰显出巨大的应用潜力,无论是自然语言处理、图像识别,还是金融风控、智能推荐等领域,都有着亮眼的表现。
2025-05-12 14:04:06
1966
原创 以实战为导向,厦门大学《DeepSeek等大模型工具使用手册》来啦(附pdf下载)
《DeepSeek等大模型工具使用手册》是由厦门大学大数据教学团队林子雨副教授领衔编写的一份综合性实践指南。该手册共177页,以实战为导向,系统讲解了大模型技术及其工具的应用方法,覆盖文本、图片、语音、视频等多模态场景,为不同领域的用户提供了高效、可操作的解决方案。
2025-05-10 13:40:34
677
原创 AI Agent 强势出圈,一文解析其底层逻辑与未来蓝图
最近,科技圈被一个神秘概念刷屏了,它就是 AI Agent(人工智能代理)。这可不是个简单的玩意儿,它不仅能帮你订机票、写代码,甚至还能像资深专家一样分析股票行情。这个被大家称为 “数字员工” 的技术,正掀起新一轮的效率革命。AI Agent:让机器 “开窍” 的智能体想象一下,有个超厉害的全能助手,一天 24 小时随时待命。你想订餐厅,它能自动去查餐厅点评、对比价格,还帮你订好座位,一气呵成;写报告的时候,面对海量的数据,它能快速提炼出要点,生成一份专业的文档;炒股票时,它能实时分析新闻、财报和
2025-05-09 14:07:09
833
原创 大模型新人必看!这份经验让你省下三年摸索时间
在人工智能浪潮席卷全球的当下,大模型作为其中的核心技术,正重塑着各行各业的发展格局。从智能客服到创意写作,从数据分析到代码生成,大模型的应用场景不断拓展,也让这个赛道成为无数求职者眼中的 “香饽饽”。然而,对于想要转行的新人来说,如何叩开大模型赛道的大门,仍是一个亟待解答的问题。那么怎么入门,入门必须知道哪些,这篇让你省下三年摸索时间!
2025-05-09 14:01:18
659
原创 面试被问:作为AI产品经理,你每天都用哪些AI产品?(推荐10款产品必用的AI工具!)
基于GPT模型的对话AI,支持自然语言生成、联网搜索、持续学习等功能。
2025-05-08 12:03:58
901
原创 【RAG 进阶】多模态 RAG 的三种巧妙实现思路,附带完整代码示例
多模态RAG的难点和多模态本身类似,还是如何对其不同模态数据的表示,以保证和用户查询的相似度计算的正确率。好在目前有很多开源的Audio to Text模型、Image to Text模型和 Image-Text双模态模型,效果也都很不错。如果需要针对具体场景的多模态模型,可以根据数据进行进一步微调。
2025-05-08 11:48:33
763
原创 零基础也能玩转AI!手把手教你本地部署阿里Qwen3大模型
Qwen3的本地部署不仅让普通用户也能体验顶尖AI技术,更为开发者提供了无限创新可能。无论是学生、程序员,还是科研工作者,都能从中找到适合自己的解决方案。赶紧按照教程动手试试吧!
2025-05-07 11:43:14
751
原创 AI技术:大白话理解 RAG、微调、蒸馏的区别
在大模型的世界里,蒸馏、RAG 和微调就像三种不同的 “魔法技能”,它们各自有着独特的作用和效果。今天,咱们就用最通俗易懂的方式,通过一张图和几个有趣的比喻,把这三种技术的区别讲得明明白白!
2025-05-07 11:36:45
866
原创 94页《ChatGPT调研报告》,哈工大最新出品,文末附下载!
2022 年 11 月 30 日,OpenAI推出全新的对话式通用人工智能工具—— ChatGPT。ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力, 它可以很好地理解用户意图,做到有效的多轮沟通,并且回答内容完整、重 点清晰、有概括、有逻辑、有条理。ChatGPT上线后,5天活跃用户数高达100万,2个月活跃用户数已达1个亿,成为历史上增长最快的消费者应用程序。
2025-05-06 11:38:13
333
原创 一文读懂大模型微调 - 指令微调(附完整代码)
大模型指令微调(Instruction Tuning)是让通用预训练语言模型(如GPT、LLaMA等)适应具体任务或人类指令的核心技术。核心思想是,通过制作’指令-输入(可选)-输出’格式的数据,对预训练模型进行二次训练,使其能够理解并执行自然语言指令,而非仅依赖预训练阶段的文本补全能力。指令微调是让模型学习 [Human提问 - Assistant回答] 的交互模式;通过标签设计(-100),让模型只学习生成Assistant部分的内容;
2025-05-05 13:57:35
959
原创 【科普】什么是token,大模型为什么要使用token用来计算输入输出
当我们使用大模型时,一般使用token来计费,例如deepseek-chat的收费标准就是百万token输入0.5到2元。那到底什么是token?大模型为什么要使用token来进行输入输出的?听我娓娓道来。
2025-05-05 13:44:59
1403
原创 74页PDF | 2025年大模型应用落地白皮书:企业AI转型行动指南+AI落地案例(附下载)
大模型应用落地白皮书:企业AI转型行动指南》由火山引擎与IDC联合发布,核心观点围绕大模型技术与企业业务融合展开,旨在为企业AI转型提供指引。
2025-05-04 13:30:00
580
原创 一文详解AI 智能体(Agent) 定义、分类、技术架构和应用路径【建议收藏】
智能体(Agent)是一种能够感知环境、制定决策并采取行动以实现特定目标的AI系统,一般具有记忆、规划、采取行为、使用工具等基本能力,如下图所示,其中规划中有思维链、能进行反思、目标分解。与传统AI系统不同,智能体具有自主性、持续性和适应性,能够在复杂环境中持续学习和优化自身行为。
2025-05-04 10:15:00
870
原创 DeepSeek V3重磅升级!零基础也能秒变AI大神!
不会做小红书封面?不会写代码?讲课太抽象?如果你还在担心这些问题,那么,我只能说,不好意思,我直接AI秒了……前几天,国产AI黑马 DeepSeek 已悄悄上新。虽不是R2,但是更新的V3缺也是牛的一批……作为AI偷懒达人,专注研究如何用AI偷懒(划掉)提升效率,今天给大家安利一个国产AI神器——DeepSeek V3!这次更新简直是小白福音,动动嘴皮子就能生成专业级作品!小白痛点:不会PS?设计没灵感?解决方案:直接告诉DeepSeek你要啥!⬇️ 生成结果:30秒输出完整HTML/CSS代码,带自
2025-05-03 09:30:00
818
原创 一文看懂Transformer、BERT和GPT大模型|AI小白必看!
在如今这个AI大火的时代,Transformer、BERT和GPT这些名词大家肯定不陌生。但它们到底是什么?相互间又有啥关系呢?今天就来给大家唠唠。
2025-05-03 08:45:00
532
原创 西南财大PPT:大模型、提示工程、AI智能体(大模型应用全路径)
这本由西南财经大学编写的PPT教材共计363页,教材不光是讲AI怎么用,而是试图把“大模型怎么进到具体行业里”这条路径讲清楚。里面从模型构造逻辑、提示词设计、Agent结构,一直讲到智能体怎么在实际场景中落地,有理论也有实操。不同于一般的讲义,它还强调了一点:技术不是万能的,落地时要考虑数据合规、算力成本、业务边界这些现实限制。如果你是做教育、金融、政务等行业的,这份PPT里的一些案例会给你不少灵感,仅是工具层面的启发,更是怎么理解“AI+业务”的角度。
2025-05-02 07:45:00
633
原创 4大类AI Agent协议框架全面综述
代理协议是标准化框架,定义了代理之间以及代理与外部系统之间结构化通信的规则、格式和程序。与传统交互机制(如API、GUI或XML)相比,协议在效率、操作范围、标准化和AI原生性方面具有显著优势。
2025-05-02 06:15:00
940
原创 【科普】大家一直说的Embedding(嵌入)是什么?
Embedding(嵌入)是一种将高维、离散或非结构化数据(如文本、图像、类别标签)映射到低维连续向量空间的技术。这些向量能捕捉原始数据的语义或特征信息,并使得相似的对象在向量空间中距离更近。
2025-05-01 10:15:00
856
原创 DeepSeek:18种高阶组合使用方法
打开DeepSeek R1模式;输入提示词:“帮我写一个关于[主题]的PPT,以Markdown格式输出PPT内容”复制DeepSeek生成的Markdown格式内容在KIMI中点击左侧的"PPT助手"功能将刚才复制的Markdown内容粘贴到KIMI中KIMI将自动解析内容并生成完整PPT下载PPT后可进行进一步个性化修改这种结合方式效率高,能将原本需要两小时的PPT制作缩短至一分钟内完成。特别适合需要快速制作演示文稿的场景。
2025-05-01 07:30:00
686
原创 重磅!扣子MCP大爆发,工作流、插件通通MCP化 | 附教程&评测
整体来说,扣子空间和扣子开发平台打通这件事方向是肯定正确的,开发平台上的插件、工作流都可以为扣子空间服务,但方式上、交互上还存在很多拧巴的地方,包括实际调用的不稳定性。
2025-04-30 10:47:20
1361
原创 64张图,看懂AI Agent的核心技术与未来
要理解LLM Agents,让我们首先探索LLM的基本能力。传统上,LLM所做的仅仅是下一个token的预测。通过连续采样多个token,我们可以模拟对话,并使用LLM为我们的查询提供更全面的答案。然而,当我们继续对话时,任何LLM都会展示其主要缺点之一:它不记得对话内容!LLM在执行许多其他任务时也常常失败,包括基本的数学运算,如乘法和除法:这是否意味着LLM很垃圾?当然不是!LLM无需具备所有能力,因为我们可以通过外部工具、记忆和检索系统来弥补其缺点。通过外部系统,LLM的能力可以得到增强。
2025-04-30 10:43:56
942
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人