- 博客(1343)
- 收藏
- 关注
原创 阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1
阿里巴巴最新推出的千问3开源大模型,无疑是AI领域中的一匹黑马,堪称“性价比之王”。其参数仅为行业同类产品的三分之一,但性能却一骑绝尘,跃居全球榜首,甚至超越了OpenAI和谷歌旗下的顶尖模型。更令人惊叹的是,它将部署成本大幅降低,让中小企业也得以触及AI技术的巅峰,开启了普惠AI的新篇章。
2025-05-04 12:15:00
530
原创 阿里Qwen3深夜开源,增强Agent能力,加强对MCP支持
2025年4月29日,阿里通义千问推出了其最新一代开源大型语言模型Qwen3系列。经过后训练的模型,例如Qwen3-30B-A3B,以及它们的预训练基座模型(如Qwen3-30B-A3B-Base),现已在HuggingFace、ModelScope和Kaggle等平台上开放使用。
2025-05-03 08:30:00
653
原创 阿里发布 Qwen 3:支持 Agent 和多种思考模式,其中仅 4B 就能力超强!
阿里发布并开放了最新的大型语言模型 Qwen3 的权重,该模型包含 2 个 MoE 模型和 6 个 Dense 模型。
2025-05-02 14:45:00
1038
原创 突发!阿里Qwen3正式发布,国内第一个混合推理模型来了!还可能支持手机部署
在五一回老家的火车上,突然看到阿里Qwen3的开源发布。我仔细阅读了官方文章,发现阿里这次发布的模型亮点真不少。我看到阿里云在AI领域的重大突破,其技术亮点和生态布局值得深入分析。也许阿里不能再仅被当做一家电商巨头了。
2025-05-01 09:30:00
537
原创 旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
MCP 是 Anthropic 公司提出的开源协议,旨在通过标准化交互方式解决AI大模型与外部数据源、工具的集成难题,阿里云百炼上线了业界首个的全生命周期 MCP 服务,大幅降低了 Agent 的开发门槛。
2025-04-30 09:55:05
1109
原创 五一旅游新玩法!Agent智能体+MCP黑科技,星火“AI导游天团”来了
五一旅游新玩法!Agent智能体+MCP黑科技,星火“AI导游天团”来了
2025-04-30 09:52:49
591
原创 大模型微调:LLaMA-Factory、Unsloth 和 Hugging Face Transformers 之选
在当今蓬勃发展的人工智能时代,大模型微调犹如一把神奇的钥匙,能够开启模型性能提升的大门,使其更好地适应各种特定任务。然而,面对市场上琳琅满目的微调工具,如何从中挑选出最契合自身需求的平台,着实成为了一项颇具挑战性的难题。
2025-04-29 09:40:12
810
原创 LLaMA-Factory:简单的微调Llama
LLaMA-Factory 是一个开源项目,它提供了一套全面的工具和脚本,用于微调、提供 LLaMA 模型并对其进行基准测试。LLaMA(大型语言模型适应)是由 Meta AI 开发的基础语言模型的集合,在各种自然语言任务中表现出强大的性能。
2025-04-29 09:38:02
951
原创 作为普通程序员,我们该如何学习大模型(LLM),附学习路线和知识体系
尤其是作为程序员的我,相信绝大多数程序员也有和我一样的感受,从一开始的新奇,到焦虑,到试图去了解他,到去尝试,并致力于应用。
2025-04-28 10:09:32
528
原创 从零构建 DeepSeek R1:训练、公式与可视化全解析
我将在本文中使用手绘流程图和简单计算,帮助你从零理解 DeepSeek R1 的核心技术。
2025-04-27 10:30:16
341
原创 GitHub 42k Star项目,全网疯传的大模型神书,还学不会算我输!
Sebastian Raschka 在 GitHub 开源了该书代码库,目前已有 42k 的 Star 数。原书刚刚出版不久,关注度已经超级高了。美亚评分更是高达 4.7 分。
2025-04-27 10:29:00
613
原创 精选5本AI大模型书籍丨这些神作震撼登场!抢先阅读让你更懂AI大模型
本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用,涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景多方面的内容。首先,本书介绍了人工智能领域的进展和趋势;其次,探讨了语言模型的基本概念和架构、Transformer、预训练目标和解码策略、上下文学习和轻量级微调、稀疏专家模型、检索增强型语言模型、对齐语言模型与人类偏好、减少偏见和有害性以及视觉语言模型等内容;最后,讨论了语言模型对环境的影响。这份。
2025-04-25 10:26:12
464
原创 这本新书一定要入手,《大模型应用开发极简入门》!
AI 领域的技术更新速度相当快,几个月的变化相当于其他领域一年的更新了,一年多前给大家推荐过《大模型应用开发极简入门》这本书,那时候 ChatGPT 正是火爆的时候,人们对 AI 既好奇又焦虑;一年多后的今天,AI 技术逐步普及,大模型的格局也不再是 OpenAI 一家独大——国内的模型已跻身世界一流,再度掀起了 AI 技术的热潮。
2025-04-24 09:53:38
1293
原创 一文读懂Milvus核心参数,十分钟解决80% 的配置问题
今天我们就从 milvus.yaml 入手,按照配置文件中的章节顺序,带大家一起来解读 Milvus 的核心配置参数及调优方案。
2025-04-24 09:46:37
628
原创 一行代码轻松将FastAPI接入MCP
FastAPI 是一个高性能、易用且现代的Python Web 框架。无数的Web服务基于 FastAPI 开发。
2025-04-23 09:37:44
964
原创 RAG 正在重塑未来:最新 11 种新型 RAG 类型一次看懂!
今天,我们整理了 11 种最新的 RAG 类型,从协同式、因果式、到图结构增强,为你打开通往下一代智能问答系统的大门。
2025-04-23 09:27:16
733
原创 GitHub 热门学习笔记《从零构建大模型》,建议收藏!
今天给大家推荐一份 GitHub 上很火的机器学习学习笔记《从零构建大模型》,目前已经收获 1.6K stars,这份笔记完美展示了从零构建 LLM 的技术路线图,既有理论深度,又包含实践要点。
2025-04-22 09:51:56
756
原创 从零构建大模型:大神 Sebastian 的高效微调大语言模型实战指南!
从零构建大模型:大神 Sebastian 的高效微调大语言模型实战指南!
2025-04-22 09:49:09
562
原创 这本书为啥全网都在追?我看了3页就明白了(附PDF)
要不是那个 GitHub 44k star 的热门项目在网上疯传,我可能一辈子都记不住这个名字要怎么拼:Sebastian Raschka。
2025-04-21 14:37:01
443
原创 想学大模型又怕卷?这30讲让你掌握核心技术!
对于我们小白或者刚刚开始学习大模型的读者来说,我们现在最重要的就是理清大模型的基础知识,包括大模型相关的基础知识,底层的神经网络以及自然语言处理相关的关键技术实践。
2025-04-21 14:35:23
336
原创 GitHub 42k+ 星标!美亚 4.7 分!《从零构建大模型》这本书带你从零打造自己的大语言模型 (LLM)!
大家好! 在 AI 浪潮席卷全球的今天,ChatGPT、Gemini 等大语言模型(LLM)展现出的惊人能力,让我们对人工智能的未来充满想象。你是否也曾惊叹于它们的智慧,同时又好奇这些庞大而复杂的模型背后,究竟隐藏着怎样的奥秘?
2025-04-18 17:02:35
943
原创 我们为什么要学习大模型应用开发?
人工智能大潮已来,不加入就被淘汰。就好像现在职场里谁不会用PPT和excel一样,基本上你见不到。你问任何一个人问他会不会用PPT,他都会说会用,只是说好还是不好。你除非说这个岗位跟电脑完全无关。但凡说能用上电脑的,基本上都会用excel和PPT,你不会用的基本上都被淘汰了,逻辑一样。
2025-04-17 11:15:04
741
原创 Java + LangChain 开发大语言模型应用(附PDF)
在 Baeldung 上看到了一篇介绍基于 Java + LangChain 开发大语言模型应用的基础入门文章,写的非常不错,非常适合初学者。于是,我抽空翻译了一下。
2025-04-17 11:13:29
755
原创 大模型书籍丨清华大学出品的《Hugging Face自然语言处理详解》|附PDF
今天给大家带来一本《HuggingFace自然语言处理详解——基于BERT中文模型的任务实战》,本书综合性讲解HuggingFace社区提供的工具集datasets和transformers,书中包括最基础的工具集的用例演示,也包括具体的项目实战,以及预训练模型的底层设计思路和实现原理的介绍。
2025-04-16 11:23:37
875
原创 DeepSeek接入个人知识库,保姆级教程来了(附教程)
这次带来 RAG 的小白应用教程:介绍如何通过 ragflow 框架把 DeepSeek 接入到自己的个人知识库中,当然其他模型也是类似,可以自由搭配。
2025-04-16 11:22:49
833
原创 AI Agent爆火!手把手教你用Coze打造自己的“数字员工”(支持 DeepSeek 最新模型)
AI Agent爆火!手把手教你用Coze打造自己的“数字员工”(支持 DeepSeek 最新模型)
2025-04-16 11:22:05
626
原创 练完这个项目,天下没有再难倒你的大模型(附项目)
LLM的应用场景不是独立的,而是和其他业务结合生成的新智能服务,这就是为什么多练习大模型项目如此重要。而理解了这点,也就知道了大模型应用的潜力有多巨大。
2025-04-15 10:45:04
625
原创 怎么学习使用大模型?论大模型和汽车的关系
随着人工智能技术的发展,大模型的应用范围越来越广,因此学习和使用大模型成了一个必不可少的技能。但很多人面对的问题是,不知道应该怎么学习大模型,因此我们今天就来讨论一下大模型的学习方式。
2025-04-15 10:36:47
684
原创 使用LLaMA Factory微调Deepseek-R1 1.5b模型
LLaMA-Factory 凭借其易用性、高效性和广泛的模型支持,成为当前大模型微调领域的热门工具之一。无论是研究人员还是开发者,都可以利用它快速实现模型定制化,提升任务性能。
2025-04-14 10:49:00
931
原创 大模型微调工具使用指南 - LLaMA-Factory
大模型适配其下游任务时,全量微调参数需要相当高的算力成本,为降低成本,缩减训练参数量和GPU显存的占用,可以采用局部微调的方式LoRA对基座模型进行微调,使得训练后模型的性能与全量微调模型的性能相当。
2025-04-14 10:42:48
1057
原创 大模型新书速览|LangChain核心技术与LLM项目实践
LangChain核心技术与LLM项目实践》全面系统地介绍了的主要功能模块及具体应用,深入探讨了LangChain在企业应用实践中的深度开发、技术优化及其核心技术。《LangChain核心技术与LLM项目实践》共。
2025-04-14 10:38:29
594
原创 在企业场景中应该怎么部署大模型——大模型企业级部署框架介绍
随着大模型的成本越来越低,以及企业生产中对大模型的定制化需求,越来越多的企业选择在本地部署大模型;这样既满足了数据安全性需求,同样也增加了企业定制化的选择。
2025-04-14 10:27:09
1013
原创 从DeepSeek到腾讯ima:为什么每个人都需要一个知识库管理系统?
今天这篇文章,将以从数字驱动到知识驱动的角度,聚焦为什么大模型时代下每个人、企业都需要一套知识库管理系统,以及如何高效搭建一套知识库系统。
2025-04-13 21:05:07
642
原创 基于LangChain4j调用火山引擎DeepSeek R1搭建RAG知识库实战指南(附大模型教程)
随着大语言模型(LLM)的普及,如何结合企业私有知识库提升模型输出的准确性和专业性成为关键挑战。
2025-04-13 21:03:34
1062
原创 2025大模型应用落地白皮书-《火山引擎 | IDC 大模型应用落地白皮书企业转型行动指南》
近日,一份聚焦2025大模型应用落地的白皮书 ——《火山引擎 | IDC 大模型应用落地白皮书企业转型行动指南》重磅发布,为企业在 AI 转型浪潮中指明方向。
2025-04-12 09:55:20
1022
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人