自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1023)
  • 收藏
  • 关注

原创 即将迎来DeepSeek-R2震撼升级:算力狂飙300%,颠覆AI未来!

即将发布的 DeepSeek R2,则在技术架构、参数设置、推理效率、多模态处理及多语言支持等方面实现了全方位的提升,甚至在成本效率和硬件适配上做出了显著优化。这篇文章将围绕 DeepSeek R2 与前代产品 R1 之间的多方面改进进行深入对比与解析,结合数个权威来源的信息数据,全面展示新版本的技术突破和市场影响。

2025-05-20 11:26:36 297

原创 涨薪30%!转型AI产品经理,这3个方法所有人都适用!

在AI产品经理刚成为互联网公司香饽饽的时候,我同事刚做产品1年的月月就规划了自己的转型计划,然后用3个月时间成功更换赛道,转战AI产品经理,涨薪30%。问及她有什么上岸秘诀?她也复盘总结了3个踩坑经验和正确路径,今天分享出来,希望对你有帮助。

2025-05-19 22:27:53 554

原创 AI时代已经到来!AI大模型的就业市场真是疯了!!!

教育部最新增设“人工智能”本科专业,北京、上海等地AI工程师年薪破百万频上热搜,华为、腾讯等企业开出天价争夺大模型人才……这些信号无一不在宣告:AI不再是科幻概念,而是决定未来就业市场的“新石油”。当蒸汽机取代马车时,最好的选择不是成为更快的马夫,而是学习驾驶火车。AI大模型的爆发同样如此:它淘汰的不是人类,而是不会使用人类工具的人。那些在招聘网站上疯狂增长的“AI训练师”“大模型应用工程师”“智能业务架构师”岗位,正在清晰勾勒出未来十年的职业新版图。正如互联网革命催生了产品经理、数据分析师等新职业

2025-05-19 21:35:17 357

原创 大模型AI应用,正在企业级赛道迅猛爆发,应用场景广阔,市场空间巨大

大模型AI应用在消费级市场的爆发,已引发各界广泛关注。不论是ChatGPT带动的第一波浪潮,还是DeepSeek之后更多中国大模型AI应用的涌现,从AI智能助手到AI陪伴应用,再到AI在各个领域的产品,应用层在全面爆发。但实际上,还有另一个易于忽略却刚需明确、广受看好的赛道,爆发得更迅猛——企业级大模型AI应用市场。这一趋势已有诸多现实印证。如AI、云计算、企服领域龙头玩家纷纷推出AI应用开发平台,满足企业拥抱生成式AI需求;IDC预测,中国生成式AI软件市场规模将达到35.4亿美元。国家层

2025-05-19 21:10:57 395

原创 绝了!DeepSeek里能一键导出Word了,90%的人还不知道

DeepSeek里Excel能导出,那Word能直接导出吗?当然OK😎那咱们今天就主要以卤鹅哥的事件为例,来给大家实操。为此,我精心整理了一套DeepSeek里一键导出Word的方案,让你 轻松上手! 以后再也不要为Word导出烦恼了😭。今天继续上干货,教大家,如何用 DeepSeek一键实现Word导出自由!今天这篇帖子实用性极强,大家一定要好好收藏哦!

2025-05-18 08:00:00 705

原创 DeepSeek+Dify 构建本地知识库,真香!建议收藏起来慢慢学!!

之前讲过 DeepSeek + Cherry 搭建本地知识库,这样的知识库比较初级,上传的文件限制较多。无法满足更多个性化需求。今天我们来看看 DeepSeek + Dify 如何搭建自己的知识库。Dify 作为同样开源的 AI 应用开发平台,提供完整的私有化部署方案。通过将本地部署的 DeepSeek 服务无缝集成到 Dify 平台,企业可以在确保数据隐私的前提下,在本地服务器环境内构建功能强大的 AI 应用。

2025-05-17 08:00:00 605

原创 DeepSeek大模型“出圈”企业端!十大场景解锁千行百业AI新范式

当AI技术从实验室走向产业一线,一场关于效率与创新的革命正在悄然发生。从钢铁厂的“智慧大脑”到医院的“AI医生”,从金融风控到能源调度,DeepSeek大模型正以“技术底座”的角色,重塑企业运营的底层逻辑。让我们聚焦DeepSeek在企业端的十大核心应用场景,看它如何为千行百业注入智能基因!

2025-05-16 14:10:58 856

原创 Java和Python转行AI大模型的优势有哪些?怎么快速学习AI大模型?附AI大模型学习路线+全套学习资料!!

Java和Python转行AI大模型的优势有哪些?怎么快速学习AI大模型?附AI大模型学习路线+全套学习资料!!

2025-05-16 11:23:44 751

原创 零基础搭建个人知识库!DeepSeek、通义千问保姆级详细教程!小白友好型~

近期,各类AI工具的爆火,引起不少小伙伴们的兴趣。很多人想用AI帮助自己处理、分析生活中的一些文件、数据等等。但如果用网页版、APP版,每次上传文件会很麻烦!所以建立一个个人知识库,会方便很多。建立个人知识库用于AI训练,其实很简单!网上也有很多说法,说这样那样的,众说纷纭!但,我保证,看完今天这篇推文,你自己也可以轻松建立知识库!

2025-05-15 14:31:56 555

原创 Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型

Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!采用了双模式架构,一个模型同时支持推理和非推理任务,根据需要自动切换。训练和微调过程采取分段式策略,逐步构建模型能力。采取了“大带小”的模式,从大号模型中蒸馏数据训练小号模型。

2025-05-15 11:52:43 648

原创 一文搞懂AI大模型:RAG、Agent与多模态的行业实践与未来趋势

RAG: 大模型的动态知识引擎,解决模型静态知识边界、时效性与可信度问题。Agent: 大模型的智能执行中枢,赋予模型自主规划、决策与工具调用能力。多模态: 大模型的感知升级底座,突破单一模态理解限制,实现真实世界全息认知。知识增强(RAG)→ 行为智能(Agent)→ 感知升级(多模态)→ 完整智能体

2025-05-14 14:43:43 1011

原创 【AI大模型】LLM如何将杂乱文本变为可视化知识图谱?看完这篇你就知道了!!

知识图谱是一种强大的信息表示工具,通过实体(节点)及其之间的关系(边)来清晰呈现事物间的联系。相比之下,非结构化文本则显得杂乱无章。传统上,从原始文本构建知识图谱并非易事,往往需要人工识别实体和关系,并编写提取规则,或者借助专门的机器学习模型完成任务。然而,大语言模型(LLM)的出现带来了转机。LLM 具备强大的灵活性,非常适合这项任务。它们能够读取自由格式的文本并输出结构化信息。正如本文将展示的,我们可以利用 LLM 构建自动化流程来创建知识图谱。

2025-05-14 11:29:26 718

原创 【AI大模型微调】LoRA及其变体:大模型微调技术的最新发展与应用

QLoRA将量化技术与LoRA相结合,通过4比特量化基础模型并使用LoRA进行微调,大幅减少显存需求,使得在消费级GPU上也能微调大型模型。这使得更多开发者和研究者能够参与到模型定制中来。

2025-05-13 13:55:27 985

原创 TCMChat:一种用于传统中医药的生成式AI大模型 - 浙大&天津中医药大学等

在医学领域,结合突破性的大型语言模型(LLMs)和对话系统的应用逐渐普及。尽管最近提出了几种中医药大型语言模型,但它们在中医药领域的专业知识仍然有限。本文介绍了TCMChat中药知识聊天机器人(https://xomics.com.cn/tcmchat),一种通过预训练(PT)和监督微调(SFT)在大规模精选的中医学文本知识和中文问答(QA)数据集上进行训练的生成式大型语言模型

2025-05-13 11:21:43 972

原创 AI大模型行业落地分享:AI大模型在小红书推荐的应用

小红书的内容形式丰富多样,既有图文笔记,也有视频笔记。为了更好地理解这些内容,小红书采用了多模态内容理解技术。基于超过10亿量级的图文和视频笔记,小红书进行了大规模的多模态预训练,支持BERT、RoBERTa、ResNet、Swin-T、ViT等多种先进架构。

2025-05-12 11:30:42 947

原创 DeepSeek+即梦AI,一键生成logo,就是这么简单!适合所以对AI感兴趣的人!!

DeepSeek+即梦AI,一键生成logo,就是这么简单!适合所以对AI感兴趣的人!!

2025-05-12 10:46:27 329

原创 【AI大模型】RAG 与 MCP 如何以不同方式解决大模型的局限性

Claude和GPT-4o等大型语言模型 (LLM) 功能强大,但也面临两个主要限制:它们包含的知识是时效性的(更具体地说,是在训练时点固定的),并且决定它们一次可以处理多少信息的上下文窗口是有限的。检索增强生成 (Retrieval-AugmentedGeneration, RAG) 和模型上下文协议 (Model Context Protocol, MCP) 是两种可以解决这些限制的方法。在本文中,我们将简短概述这两种方法的工作原理,以及区分它们的一些差异。

2025-05-11 08:00:00 1209

原创 大白话带你了解:智能体、LLM、RAG和提示词工程,轻松构建下一代应用,小白看这一篇就够了!!

今天主要来聊一聊Ai大模型中的几个概念这两年AI应用开发火得不行,但很多小伙伴被一堆专业名词绕晕了。今天咱们就来掰开揉碎说说几个最关键的术语,保证看完你就能和工程师聊上两句了。

2025-05-10 14:06:10 559

原创 【AI大模型】使用 LangChain + Higress + Elasticsearch 构建 RAG 应用,收藏这篇就够了!!

RAG(Retrieval Augmented Generation,检索增强生成) 是一种结合了信息检索与生成式大语言模型(LLM)的技术。它的核心思想是:在生成模型输出内容之前,先从外部知识库或数据源中检索相关信息,然后将这些信息作为上下文输入给生成模型,从而提升生成内容的准确性、时效性和相关性。在本文中,我们将使用 LangChain、Higress 和 Elasticsearch 来构建一个 RAG 应用。

2025-05-10 11:48:44 1019

原创 【AI大模型搭建】拒绝焦虑!如何分钟级完成大模型应用开发环境搭建,看完这篇你就懂了!!

是 RAG 技术让零基础小白 3 天搭建智能客服,是 Llama3 微调教程在 GitHub 狂揽 10 万星。在 AI 的帮助下,有不少不足十人的开发团队,维护着月活上百万的应用。麦肯锡的报告还预测,到 2030 年,全球 AI 人才缺口将达到 4000 万人,包括很多复合型人才:AI 架构师、多模态算法工程师、AI 安全工程师、AI 产品经理……

2025-05-09 14:37:30 499

原创 【AI大模型】检索增强生成(RAG)技术演化总结!从传统RAG到GraphRAG,再到Agent检索!

检索增强生成(RAG)可以让基础大模型从其知识截止日期之后的外部信息源中获取知识,减少模型幻觉,并在回答时引用特定的信息来源。但RAG并非一个单一的技术。它是一系列持续发展的创新,每一项都在解决信息获取、思考行动和信息综合生成等方面的不同挑战。「本文将为大家介绍RAG技术的演变,从最早的查询转换,到图结构知识检索,再到Agent检索」;所有这些都是为了应对更难的信息查找和推理任务。文章结构安排如下:

2025-05-09 11:28:14 691

原创 【AI大模型】AI Agent:四大核心能力详解与技术演进,建议收藏起来慢慢学!!

智能体(Agent)的概念Agent一词,直译过来为“代理”,在AI的专业语境中,常被译为“智能体”。回顾传统聊天机器人,其主要优势在于对文字的理解与处理,能够熟练回答各类问题,完成诸如修改邮件、轻松聊天等相对简单的任务。然而,一旦面临复杂程度较高、需要多步骤协同执行且涉及与外界交互的任务时,传统聊天机器人便显得力不从心,难以有效应对。而智能体的核心使命,便是赋予AI自主完成任务的强大能力。这意味着当AI接收任务指令后,不仅要深度思考并规划出执行路径,更要切实将计划付诸实践,确保任务得以顺利推进。

2025-05-08 14:26:13 512

原创 【AI大模型】DeepSeek致谢腾讯大模型网络提速技术方案贡献

DeepSeek开源了包括DeepEP在内的五大代码库,揭秘了他们如何用1/5硬件资源实现传统万卡集群效能的核心技术。其中,DeepEP作为突破NCCL性能瓶颈的通信框架,通过300%的通信效率提升,成功让众多MoE架构的大模型摆脱了对英伟达NCCL的依赖。

2025-05-08 11:44:10 601

原创 保姆级教程:零代码基础也能微调Qwen3,并本地部署,收藏这一篇就够了!!

我将在本文介绍如何通过 unsloth 框架以 LoRA 的方法微调 Qwen3-14B 模型。我们将在本文介绍如何微调使模型成为一个"双重人格"的助手,既能进行普通闲聊,又能在需要时切换到更严谨的思考模式来解决复杂问题,特别是数学问题。简而言之,微调后的模型获得的能力

2025-05-07 14:11:09 1016

原创 windsurf分享了他们对构建Agent应用的认知,看到就是赚到!!

认知误区在他们看来,目前存在几个认知误区,得掰扯清楚Agent ≠ 普通的生成式 AI不要把换个system prompt的东西就叫做AgentAgent 的“推理” ≠ 模型的“思维链Agent 的“推理”,特指 LLM 选择下一步要调用哪个工具、给什么参数 的决策过程。 而COT不涉及调用外部工具Agent ≠ 简单的 AI 工作流 (Workflow)Agent 的核心在于,LLM 是在运行时实时决策下一步调用哪个工具,具有更高的灵活性和自主性。

2025-05-07 11:30:17 913

原创 产品经理必懂的 5 个 AI 知识点:LLM、Agent、RAG、向量数据库、知识图谱

产品经理必懂的 5 个 AI 知识点:LLM、Agent、RAG、向量数据库、知识图谱

2025-05-06 14:47:06 806

原创 【AI大模型】RAG技术解剖:3大模块根治AI“幻觉“,看到就是赚到!!

什么是RAG?RAG(Retrieval Augmented Generation,检索增强生成)是一种将检索系统与生成式AI模型结合的技术架构。核心思想是:不要让模型凭空生成答案,而是先检索相关信息,再基于检索到的信息生成回答。RAG解决的核心痛点

2025-05-06 11:38:10 546

原创 DeepSeek开源的文件系统,是如何提升大模型效率的?看完这一篇就懂了!!

人们认为,DeepSeek 通过开源 3FS 与 smallpond 等工具,在 AI 基础设施领域树立了新的设计范式。其价值不仅在展现技术实力,更是在驱动核心基础设施创新。DeepSeek 提出的文件系统是如何运作的,又能如何提高模型效率?最近,来自伊利诺伊大学厄巴纳-香槟分校的在读博士生 Henry Zhu 对 3FS 进行了解读。

2025-05-05 14:44:39 648

原创 【AI大模型】下一代RAG:54种RAG-大模型推理协同技术最新全面综述,收藏这一篇就够了!!

大型推理模型OpenAI O1和 DeepSeek-R1的进步,极大地推动了RAG技术的发展,对RAG与推理之间的协同作用进行了系统性的综述,明确了“推理”在RAG背景下的定义。构建了一个全面的分类体系,涵盖了多维的协作目标、代表性范式以及技术实现,并分析了双向协同的方法以及一份协同实践指南。

2025-05-05 11:37:14 746

原创 这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机

Transformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如机器之心曾报道过的 Reformer 和 Infini-Transformer今天我们又将介绍另一种新型 Transformer 架构:Differential Transformer(差分 Transformer,简称 Diff Transformer)。该架构来自微软研究院和清华大学,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yut

2025-05-04 08:00:00 874

原创 一文搞懂大模型训练加速框架DeepSpeed的使用!建议零基础小白人手一份!!

在AI领域,常见的深度学习框架TensorFlow、PyTorch和Keras无疑是开发者们的得力工具,但随着模型规模的急剧膨胀,这些传统框架在应对大模型时往往会显得力不从心。比如Pytorch的分布式并行计算框架DDP(Distributed Data Parallel),尽管实现了数据并行,但是当模型大小超过单个GPU显存限制时显得捉襟见肘。此时,开发者往往只能手动进行复杂模型的参数拆分到各个GPU上,这无疑增加了研发的复杂性和门槛。

2025-05-03 08:00:00 1015

原创 Deepseek本地部署详细指南!从 Ollama 到个人知识库应用

整体体验下来,14b 模型在翻译工作上比 7b 模型更为准确,一次性翻译成功率高。7B 模型翻译结果噪声多,返回结果可序列化效果差。翻译结果远远不如 14b

2025-05-02 08:00:00 1416

原创 RAG与微调--本地部署大语言模型在车企OEM的效率提升用途

LLM用在车机上,就是人机智慧问答,这是比较触手可及的。2、用在自动驾驶系统,比如理想VLA下一代自动驾驶架构,使用LLM作为基座模型,融合空间视觉和人类语言理解。3、用在车辆智能故障诊断和故障预测。现代车辆,特别是融合计算机系统的软件定义车辆,完全可以说是轮子上的智能计算机,车主或者驾驶员作为用户,很难理解各种原理和术语,只能用模糊描述的人类语言描述问题,车载大语言模型再转换为内部的技术语言来定位和预测车辆故障,并且以人类语言反馈车主或驾驶员。

2025-05-01 08:00:00 766

原创 阿里Qwen3 全部情报汇总,本地部署指南,性能全面超越 DeepSeek R1

Qwen3-235B-A22B (MoE, 总大小 235B, 激活参数 22B, 上下文 128K)Qwen3-30B-A3B (MoE, 总大小 30B, 激活参数 3B, 上下文 128K)混合思维模式,搭载了 thinking 开关,可以直接手动控制要不要开启 thinking最大的这个 Qwen3-235B-A22B 在强劲性能的基础上,部署成本仅为 Deepseek R1 的 35%。Qwen3-30B-A3B 的激活参数只有 3B,性能却可以跟 QWQ-32B 打平,成本只有

2025-04-30 11:44:52 2254

原创 突发!阿里开源Qwen-3,碾压DeepSeek-R1、o1,真的有实力!!

昨天凌晨5点,阿里巴巴开源了最新大模型——Qwen3。根据最新测试数据显示,Qwen3 在ArenaHard、AIME 24/25、LiveCodeBench、CodeForces、Aider等测试平台中,全部超过了DeepSeek开源的R1以及OpenAI的o1等著名模型。

2025-04-30 11:14:35 524

原创 产品经理的 5 个 AI 知识点:LLM、Agent、RAG、向量数据库、知识图谱

你是否经常被科技新闻里的术语绕晕?今天用“人话”拆解AI领域的五大核心技术概念,带你看懂未来世界的底层逻辑!一、LLM:大语言模型——AI界的百科全书是什么:LLM(Large Language Model)即大语言模型,像ChatGPT、文心一言这类能写诗、编程、聊天的AI,核心都是LLM。原理:通过“吞下”海量文本数据(如全网文章、书籍),学习人类语言的规律,像超级学霸一样预测下一句话该说什么。局限:知识可能过时(比如不知道2023年后的新闻),且容易“一本正经地胡说八道”(幻觉问题)。

2025-04-29 14:41:03 1066

原创 阿里Qwen3深夜开源,增强Agent能力,加强对MCP支持

经过后训练的模型,例如Qwen3-30B-A3B,以及它们的预训练基座模型(如Qwen3-30B-A3B-Base),现已在HuggingFace、ModelScope和Kaggle等平台上开放使用。对于部署,我们推荐使用SGLang和vLLM等框架;而对于本地使用,像Ollama、LMStudio、MLX、llama.cpp和KTransformers这样的工具也非常值得推荐。

2025-04-29 11:44:17 996

原创 【AI大模型】Agent如何提高任务执行精度?5大核心方法揭秘!看到就是赚到!!!

随着人工智能技术的飞速发展,智能代理(Agent)作为一种突破性的新型系统,正在成为各行各业解决复杂问题的利器。本文将详细解析 Agent 是如何通过精准的工作流、触发机制、数据优化等手段,提升智能系统的效率与准确性,让我们一起揭开这一革命性技术的神秘面纱。

2025-04-28 13:45:48 649

原创 【AI大模型】以最简单的方式揭秘大模型(LLM)复杂的工作原理,收藏这一篇就够了!!

大模型(LLM),或者说大型语言模型(Large Language Model)的出现,使人工智能引起了几乎所有人的关注。由于自然语言本身就是一种“自然的界面”,使得人工智能最近的突破成果对所有人来说都变得触手可及,从而迅速走红。然而,除非你是一名数据科学家或从事其他 AI 相关工作,否则很少有人真正了解 LLM 的工作原理。在这篇文章中,我将尝试改变这一状况。

2025-04-28 11:28:08 476

原创 为什么新手比专家更想做垂直领域SFT微调?看完这一篇就懂了!!

随着人工智能的浪潮席卷全球,大语言模型(LLM)的应用正变得无处不在。在垂直领域的SFT微调(Supervised Fine-Tuning)作为提升模型专业能力的关键技术,吸引了无数目光。但你是否注意到一个奇怪的现象:相比经验丰富的专家,新手似乎对尝试SFT微调表现出了更大的热情?这究竟是为什么?是新手无畏的冒险精神,还是专家深思熟虑后的保留态度?那么,什么是SFT微调?为什么它这么重要?具体怎么做?又该从哪个模型开始着手?别急,这篇文章将一步步为你解答。

2025-04-27 11:21:11 436

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除