- 博客(476)
- 资源 (1)
- 收藏
- 关注

原创 狠狠收藏!关于Deepseek,看这一篇就足够了
最近,AI界黑马DeepSeek爆火。AI圈、科技博主、职场人,甚至连朋友圈的宝妈群都在聊——“DeepSeek太强了!”“国产GPT之光!”“中文能力碾压!但Deepseek这个名词对部分人来说还比较陌生,怎么高效使用也是一个未知数,今天,就让我们一起走进DeepSeek的世界,看看它到底有多厉害!顺便再给你个DeepSeek万能使用模板,让你彻底摆脱提示词焦虑,让AI真正成为你的“最强大脑”!
2025-02-04 11:58:09
13874
原创 2025 程序员转行做大模型:职业发展前景、可选岗位与选择策略
在科技飞速发展的 2025 年,大模型技术正以前所未有的速度改变着我们的生活和工作方式。从智能语音助手到精准的医疗诊断,从高效的物流调度到个性化的推荐系统,大模型的应用无处不在。这一技术浪潮,也为广大程序员带来了新的职业发展机遇。许多程序员开始思考:转行做大模型,会是一个好的选择吗?如果决定转行,又有哪些岗位可以选择,该如何做出合适的选择呢?接下来,我们就一起来探讨一下这些问题。
2025-05-07 10:04:48
590
原创 大语言模型(LLM)是什么?大语言模型综述,初学者入门必看指南!
面对大量的文本信息,如学术论文、新闻文章、会议记录等,大语言模型可以自动提取关键信息,生成简洁明了的摘要。这对于研究人员快速了解相关领域的研究成果、企业管理者快速掌握市场动态等都具有重要意义。例如,在金融领域,分析师可以利用模型生成的公司财报摘要,快速分析企业的财务状况和经营成果;在信息检索领域,搜索引擎可以结合文本摘要技术,为用户提供更精炼的搜索结果预览,帮助用户更快地找到所需信息。
2025-05-07 10:00:14
465
原创 AI大模型工程师薪资翻3倍!普通人怎么上车?
年薪百万,公司抢着要!”——这可不是吹牛。。从ChatGPT到Sora,科技巨头们疯狂砸钱挖人,应届生起薪60万,资深专家年薪百万不稀奇。凭啥这么火?小白能转行吗?怎么上手?这篇给你说明白!
2025-05-06 10:08:20
456
原创 【科普】理解 “Token“ 与分词器:学懂 Transformer 的关键顿悟时刻!
Token和分词器是LLM的“幕后英雄”。Token是AI处理文字的基本单位,分词器则是把文字变成Token的魔法师。从早期的WordPiece、BPE,到SentencePiece与Tiktoken,我们可以看到:分词器并不是一件小事。它影响的不只是文本编码效率,更深刻地决定了模型理解语言的方式、训练成本以及推理表现。希望这篇文章让你对Token和分词器有了清晰的认识!只有真正理解了 Token,我们才能更好地驾驭大模型,让它为我们的任务所用。
2025-05-06 09:55:11
755
原创 普通人如何用好千问3!9大场景+喂饭级Prompt,助你玩转教育场景~
今天我们聚焦的是「教育」场景!这些,都能帮你实现!今天,我就手把手带你,把 千问3 这个“高科技”拉下神坛,变成你!咱们不讲那些复杂的原理,只讲准备好了吗?拿出手机,打开你的(确保是最新版哦!), 跟我一起,给你的家庭教育来一次 AI 大升级!Let’s GO!简单来说,就是阿里最新、最强大的 AI 模型,你可以把它理解成一个“会说话、会思考、会创作”的智能大脑。也可以把它想象成一个住在你手机里的的结合体。为啥说它特别适合咱们普通家长用呢?它是一个可以帮你的强大伙伴。关键在于,
2025-05-05 10:54:28
1033
原创 AI Agent是什么?一文读懂这位“全能管家”
智能体(Agent)是一种能够感知环境、制定决策并采取行动以实现特定目标的AI系统,一般具有记忆、规划、采取行为、使用工具等基本能力,如下图所示,其中规划中有思维链、能进行反思、目标分解。与传统AI系统不同,智能体具有自主性、持续性和适应性,能够在复杂环境中持续学习和优化自身行为。
2025-05-05 10:32:30
819
原创 大模型应用落地白皮书:企业AI转型行动指南 (附下载)
大模型应用落地白皮书:企业AI转型行动指南》由火山引擎与IDC联合发布,核心观点围绕大模型技术与企业业务融合展开,旨在为企业AI转型提供指引。大模型加速从探索走向落地:大模型技术推动AI应用升级,企业对其关注度和投资持续增加,积极拓展试点范围。大模型为企业带来多维价值,涵盖员工、用户、营收和市场等方面,提升工作效率、创新用户体验、推动产品服务升级等,坚定了企业探索其潜力的决心。企业落地面临的挑战与机遇:大模型落地面临高成本、模型选配难、部署落地细节复杂、安全风险与可解释性等多重挑战。
2025-05-04 10:45:00
1770
原创 多模态大模型入门指南,看完不迷路!
最近,多模态大模型取得重大进展。随着数据集和模型的规模不断扩大,传统的 MM 模型带来了巨大的计算量,尤其是从头开始训练的话。研究人员意识到 MM 的研究重点工作在各个模态的连接上,所以一个合理的方法是利用好现成的训练好的单模态基础模型,尤其是 LLM。这样可以减少多模态训练的费用,提升训练效率。MM-LLM 利用 LLM为各种 MM 任务提供认知能力。LLM 具有良好的语言生成,zero-shot 和 ICL 的能力。其他模态的基础模型则提供了高质量的表征。考虑到不同模态的模型是分开训练的,如何将不
2025-05-04 08:15:00
665
原创 2025年AI大模型谁能笑到最后?
前几天对比了几个问题,国外的O3、Claude算是最好的,其次是grok。国内的DeepSeek,qwen,其次就是kimi,豆包。qwen,无论是微调还是推理都非常稳健,是我微调模型首选,kimi,我处理长文本进行了比较,用下来kimi 128b的极好,如果充值的话,可以和幻觉的R1和V3相媲美。Qwen不如豆包一坨,国内这些ai都处于“难用”状态,但架不住豆包最“人性化”,尤其是语音拟人,直接秒全场。豆包是最适合生活场景的。这几个相信也一定能活下来的。现在也是事实意义上的三巨头。
2025-05-03 13:45:00
905
原创 【科普】 大模型时代,为什么模型都是多少B?
在大模型时代,用“多少B”来描述模型规模并非偶然,它深刻反映了模型的核心属性——参数数量,而参数数量又紧密关联着模型的复杂度、学习能力以及实际表现。从几B到上千B的模型,不同规模在各自的应用场景中发挥着独特作用,模型规模的增长在推动人工智能技术飞跃的同时,也带来了训练成本、数据需求等方面的严峻挑战。但正是在不断应对这些挑战的过程中,技术得以持续创新和进步。随着未来计算技术、算法优化以及数据处理方法的不断发展,我们有理由期待大模型在更多领域创造出更令人瞩目的应用成果,进一步改变我们的生活和工作方式。
2025-05-03 07:45:00
1639
原创 2025年DeepSeek大模型及其企业应用实践报告(企业篇)(附下载)
大模型以其海量参数、强大学习能力和泛化能力,能够处理多种类型的数据,并在多个领域展现出巨大潜力。报告详细探讨了大模型在不同行业中的应用,如自然语言处理、计算机视觉、语音识别、医疗健康、金融风控等,并以DeepSeek大模型为例,展示了其在客户服务、个性化推荐、教育与培训等多个场景中的具体应用案例。此外,报告还讨论了。
2025-05-02 12:00:00
659
原创 都在劝退?大模型前景如何
这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括。
2025-05-02 07:45:00
1273
原创 大模型多种多样!掌握这份模型选择指南就够了
大模型发展太快了,还记得年初 Deepseek R1 的发布吗?才过了4个月,几乎每一家模型厂商都推出了王炸级的模型。从指令型、多模态发展到推理型和Agentic代理型,虽然不同厂家的模型都有了各自的特点和擅长,用户根据场景来选择有哪个模型,但顶不住 LLM行业( Large Language Model)发展太快, 先不说应用的发展,就LLM的数量和版本多的就让用户迷惑。
2025-05-01 10:00:00
795
原创 大模型是什么?大模型综述,看这一篇就够了!
(Large Models)通常指参数规模庞大(通常在十亿到万亿级别)的深度学习模型。这类模型通过在大规模数据集上进行训练,具备强大的泛化能力和复杂的任务处理能力,尤其在自然语言处理(NLP)、计算机视觉(CV)和多模态任务中表现突出。例如,GPT-3(1750亿参数)和PaLM(5400亿参数)是典型的大模型。那么,大模型和小模型有什么区别?
2025-05-01 07:30:00
832
原创 小而强大,阿里开源全球最强开源模型 Qwen3!
北京时间 4 月 29 日凌晨 4 点 52 分,我们终于等到了 Qwen3(千问 3)的正式亮相。从 23 年 8 月开始,我们就一路看着 Qwen 模型的开源与迭代,而这一次千问 3 的发布可能是最惊喜的一次!放几个关键词:全系列,开源最强,混合推理,思考更快,成本骤降,Agent 能力提升…简直 buff 拉满,一起来感受一下!
2025-04-30 09:55:57
1149
原创 大模型入门指南 - Training:小白也能看懂的“模型训练”全解析
Training(模型训练)本质是AI世界的‘科学烹饪实验’——以数据为食材原料,用超参数作配方比例,借验证集做品控质检,将‘玄学炼丹’的试错过程,淬炼成‘可复现的精密工程’。今天用最通俗的话,带你拆解模型训练(Training)全过程。
2025-04-30 09:52:31
1083
原创 大模型算法面经:Function Call、MCP、A2A
为每个工具、插件或 API 设计一个符合上述 Function Call 格式的结构化描述(JSON Schema 是常用方式)。
2025-04-29 10:16:53
853
原创 一文看懂‘推理大模型‘与‘普通大模型‘的区别
与普通大模型相比,推理大模型倾向于在回答给定问题之前将问题分解为更小的步骤(通常称为推理步骤或思维过程)。那么“思维过程”、“推理步骤”或“思路链”实际上是什么意思呢?尽管我们可以思考LLM是否真的能够像人类一样思考,这些推理步骤将过程分解为更小的、结构化的推理。到 2024 年上半年,为了提高 LLM 在预训练过程中的性能,开发人员通常会增加以下大小:模型(参数数量)数据集(标记数量)计算(FLOP数量)综合起来,这被称为训练时计算,指的是预训练数据是“人工智能的化石燃料”。
2025-04-29 09:45:38
870
原创 【大模型入门篇】如何系统的入门大模型?
本篇回答默认面向对大模型领域感兴趣的程序员。:基于提示词对大模型的使用,会问问题就行。在大模型生态之上做业务层产品。AI主播、AINPC、AI小助手。。。之前是会调API就行。现在有了GPTs,连调用API都可以不用了,动动嘴就可以实现应用生成。:给大模型配个“资料袋”——大模型外挂向量数据库/知识图谱。给大模型“大脑”装上记忆体、手和脚,让它可以作为智能体进行决策和工作。:基于基座大模型的Fine Tuning。大模型训练,高端赛道的角逐。
2025-04-28 10:41:58
925
原创 大模型面试:大模型微调面试
一般 n B的模型,最低需要 16-20 n G的显存。(cpu offload基本不开的情况下)vicuna-7B为例,官方样例配置为 4*A100 40G,测试了一下确实能占满显存。128,max length 2048)当然训练时用了FSDP、梯度累积、梯度检查点等方式降显存。SFT的重点在于激发大模型的能力,SFT的数据量一般也就是万恶之源alpaca数据集的52k量级,相比于预训练的数据还是太少了。。,即使在多语言场景下也能有不错表现。。应该;。(比如:数百个)否则可能会;万),。
2025-04-28 10:27:22
1009
原创 图解 Transformer,一文吃透工作原理
另一种方法是保留前两个最有可能的单词(例如 ‘I’ 和 ‘a’),然后在下一步中,运行模型两次:一次假设第一个输出位置是单词 ‘I’ ,另一次假设第一个输出位置是单词 ‘a’,然后根据考虑位置 #1 和 #2 的错误程度,保留生成误差较小的版本。这种方法称为“束搜索”(beam search),在我们的示例中,束宽(beam_size)为 2(这意味着在任何时候,模型会在内存中保留两个部分假设,即未完成的翻译),而返回束(top_beams)也是 2(这意味着我们最终会返回两个翻译)。
2025-04-28 10:16:44
1248
原创 【大模型入门必看】0基础入门大模型的学习路线
0基础入门大模型,transformer、bert这些是要学的,但是你的第一口不一定从这里咬下去。真的没有必要一上来就把时间精力全部投入到复杂的理论、各种晦涩的数学公式还有编程语言上,这样不仅容易让你气馁,而且特别容易磨光热情。
2025-04-27 17:21:37
625
原创 基于 MCP Http SSE模式的天气助手智能体开发实战(一文带你了解MCP两种开发模式)
本次分享我们深入浅出地介绍了MCP(模型上下文协议)的两种通信方式:标准输入输出(stdio)和基于HTTP的服务器推送事件(SSE)。通过开发一个天气助手智能体的实战案例,生动展示了两种模式的异同——stdio适合本地高效通信,而SSE则适用于远程分布式场景。本次分享我还着重对比了代码差异,比如SSE需要URL参数,而stdio直接调用子进程。最后,还为大家安利了调试神器MCP Inspector,能一键测试服务端功能,堪称“懒人福音”。
2025-04-27 11:18:17
893
原创 3步搭建企业级Text2SQL应用,RAGFlow 实现自然语言转 SQL 的终极指南!
在企业大模型应用方面,Text2SQL一直是应用热点。大家都希望小嘴一张,就完成一系列数据提取和分析工作。但是,使用大模型自动理解业务需求,实现 SQL 代码编写和代码执行一直都存在技术难点。传统的 Text2SQL 方案,往往依赖,对于中小企业而言,带来非常高的应用成本。今天,介绍一个方法,使用开源 RAG 框架RAGFlow,应用知识库检索与大模型推理结合,不需要对模型做任何微调,只需要仅需配置少量结构化数据即可实现精准SQL生成,实现等多种场景。
2025-04-27 11:05:45
1063
原创 【MCP实战】用 Fastapi-MCP 快速从 0 开发一个 MCP Server
新增简单工具:获取当前时间format: str = "human" # 可选: iso | timestamp | human至此,我们就学会了怎么用Fastpi-MCP的工具来实现自己的 MCP服务。建议一定要到官网学习:https://github.com/tadata-org/fastapi_mcp。
2025-04-25 10:18:05
979
原创 【建议收藏】一口气学完谷歌最新AI提示工程教程精华,看完直接弯道飙车!
提示工程是设计高质量提示的过程,目的是引导大型语言模型生成准确、相关的输出。根据谷歌的定义,它是"设计高质量提示的过程,这些提示指导LLM生成准确的输出。此过程涉及调整以找到最佳提示,优化提示长度,以及评估与任务相关的提示的写作风格和结构。大型语言模型(LLM)本质是一个预测引擎:输入文本,预测下一个可能的词语。模型连续地预测下一个token应该是什么,将先前预测的token添加到文本末尾,不断重复此过程生成完整回答。核心原理LLM根据训练数据预测下一个词的概率好的提示能引导模型产生符合预期的输出。
2025-04-25 10:00:09
675
原创 人工智能小白必看系类:人工智能基础知识(附免费下载)
本篇系统而全面地概述了人工智能的知识体系。首先,我们定义了人工智能的基本概念,这是理解整个领域的基础。随后,通过对人工智能发展历程的梳理,我们展示了其从诞生到如今的演变轨迹,凸显了其在科技进步中的重要地位。接下来,我们深入探讨了机器学习与深度学习这两项核心技术。此外,我们还特别关注了大模型与AIGC(Artificial Intelligence Generated Content,人工智能生成内容)的兴起。这两项技术代表了人工智能领域的最新进展,它们的出现将进一步加速人工智能在各行业的应用与普及。
2025-04-24 10:19:36
838
原创 大模型部署难?手把手教你选对推理工具!
选择正确的模型服务工具对于将机器学习模型转化为带来价值的应用程序至关重要。本文概述了服务运行时和平台,重点介绍了它们的功能、优点和局限性。可以看到找到公司最佳模型服务堆栈的难度并不小。您的选择应该基于项目的需求、团队的技能以及您需要对部署和扩展进行多少控制、框架兼容性、集成能力以及复杂性和功能之间的权衡等因素进行决策。建议:首先,缩小哪些工具可以匹配您的特定场景。然后,花一些时间为每个潜在工具构建概念验证 (PoC)。没有比快速实现更好的方式来感受框架了。
2025-04-24 10:10:58
616
原创 【科普】DeepSeek-R1 1.5b、7b、8b、14b、32b、70b、671b 都是什么鬼?
你是不是被这些概念绕晕了?如图所示:DeepSeek-R1 模型有好几种规格,比如,后面的,而 b 则是指 “” 的意思,也就是其中,,性能最强,也就是官网部署的版本。这样命名并不是 DeepSeek 的独特之处,其他大模型也都是这样命名的,比如说所以,一个模型的参数量越大,它能处理和生成的内容质量越复杂、越高,也更能满足我们的要求,不过也需要更多的硬件资源来支撑。大家可能会觉得,既然参数量越大模型越聪明,那是不是直接用最大的参数量就完事了?其实,这并不一定,现实中,,得具体问题具体分析。
2025-04-23 10:25:35
1374
原创 如何开发一个企业级的 LLMOps(智能体) 平台?
在各类跟 AI 相关的技术平台中,你一定经常会听到智能体平台、LLMOPS、MLOPS,你是否知道这 3 个概念之间的区别和联系呢?下图是 3 个概念之间的区别和联系:MLOPS 是机器学习运维,用来训练通用的模型。LLMOPS 属于 MLOPS 中的一部分,主要用来解决 LLM 的生命周期管理。通过 LLMOPS,企业可以很容易的训练出 需要的LLM,提供给智能体平台集成。
2025-04-22 10:54:25
1026
原创 从零实现 DeepSeek R1:从基础模型到强化推理模型
在人工智能领域,语言模型的推理能力一直是研究的热点和难点。DeepSeek R1 作为一款专注于推理的先进语言模型,其训练过程和技术创新为自然语言处理领域带来了新的突破。DeepSeek R1 的训练过程并非从零开始,而是基于其强大的基础模型 DeepSeek V3,通过强化学习(Reinforcement Learning, RL)的方式进行优化和改进。为了便于理解和实践,我们可以通过一个简化版本的项目来复现这一过程。项目代码库提供了完整的实现细节,包括代码、依赖库和针对非技术读者的解释文档。
2025-04-22 10:18:36
1047
原创 4大AI智能体平台深度对比:Dify、Coze、AutoGen、LangChain,哪款更适合你?
AI智能体(AI Agent)近年来发展迅猛,展现出广阔的应用前景和巨大的商业潜力。不少优秀企业也都推出了自己的AI智能平台,每一家都各具特色,可满足不同用户的需求。本文将深入对比三大热门智能体平台:Dify、Coze、AutoGen、LangChain,帮助选型人员快速了解各自的优势和适用场景。Coze由字节跳动推出,Coze平台是一个基于机器学习和自然语言处理技术的软件实体,它在人工智能领域扮演着重要的角色,能够像一个智能助手一样,通过与外界环境进行交互学习,进而执行各种各样的任务。
2025-04-21 11:30:13
955
原创 【RAG 实战】用 StarRocks + DeepSeek 构建智能问答与企业知识库
RAG(Retrieval-Augmented Generation)是一种结合信息检索与生成式大语言模型(LLM)的技术框架,通过从外部知识库检索相关信息,并将检索结果作为上下文输入LLM,从而提升生成内容的准确性和相关性。其核心目标是解决大模型的知识局限性(如幻觉、时效性差、私有知识缺失等问题。
2025-04-21 10:50:43
1162
原创 一文搞懂大模型可视化(Open WebUI)
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
2025-04-19 08:30:00
2343
原创 【科普】大模型系列之Token、上下文长度、最大输出,一次讲透
token是大模型(LLM)用来表示自然语言文本的基本单位,可以直观的理解为 “字” 或 “词”。通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个tokenToken(令牌)就像玩拼字游戏时的小方块,每个方块代表一个字或词。
2025-04-18 10:48:24
1677
Java架构面试真题Spring篇
2020-04-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人