自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 资源 (1)
  • 问答 (2)
  • 收藏
  • 关注

原创 从LLM到Agent的进阶之路(三):词嵌入——大模型如何“理解”了文字的意义

从简单的数字索引,到蕴含宇宙奥秘的词嵌入向量,我们走过了AI理解语言的第一里路,也是最重要的一里路。词嵌入层,正是整个AI大模型的“地基”。这块基石的质量,直接决定了 Transformer 所能达到的高度和稳固性。在下一期中,我们将沿着数据的流向继续向上,探索大模型是如何基于这些嵌入向量,一步步“思考”并生成下一个词的。

2025-11-18 14:37:39 758

原创 从LLM到Agent的进阶之路(二):揭秘大模型思考的第一步:分词 (Tokenization)

在大模型领域,Token 就是分词后得到的基本语义单元。它通常是一个词(如“天气”),有时也可能是一个字(如“的”)或一个符号。Token不仅是技术概念,它和你的钱包息息相关!衡量大模型生成速度的单位是 Token/秒。我们调用大模型API的费用,也是按处理的 Token数量 来计算的。例如,某模型可能是“每百万Token输入4元,输出12元”。理解了Token,你就理解了大模型计价和衡量性能的基本单位。分词就是将文本切分为Token的过程,它是后续所有处理的基础。

2025-11-13 15:42:07 968

原创 从LLM到Agent的进阶之路(一):每一个开发者,都应该拥有一张AI技术地图

我们每天被无数“热点”和“快讯”拍打:新的模型发布了,新的框架开源了,新的应用又融资了……我们将完整地走过从需求分析、架构设计到代码实现的全流程,让你亲身体验从0到1构建一个完整AI应用的成就感。我们将从最根本的“第一性原理”出发,像剥洋葱一样,层层揭开大模型的神秘面纱。走完这一站,你将拥有将一个被动问答模型,蜕变为一个主动“行动者”的全套技能。在这里,我们追求的不仅是“知其然”,更是“知其所以然”。如何亲手在你的电脑上,跑起第一个属于自己的大模型?我们缺少的,不是零散的信息,而是一张可靠、精准的。

2025-11-10 22:26:23 185

原创 一个能听懂人话的数据库智能体,到底有多强大?一句话搞定所有业务!

如果您想深入探讨,如何将这个智能体无缝对接到您现有的数据库,解决您最核心的业务痛点,或者有任何关于技术合作、私有化部署的想法,我非常乐意与您交流。眼花缭乱,还极易出错。😩 作为市场负责人,你刚花掉50万预算办了场活动,想知道效果如何,却要填一堆数据需求单,然后在一周后拿到一份布满图表的复杂报告。它会瞬间理解你的意图,生成复杂的SQL,查询数据库,然后用你能听懂的语言,给你一个清晰、深刻、直达问题核心的答案。😭 作为一线销售,你马上要给一个重要客户打电话,却对他一无所知,只能凭感觉“盲猜”他可能喜欢什么。

2025-09-01 14:50:07 454

原创 DeepSeek V3.1发布,DeepSeek也做混合推理了?

这引发了人们的推测,认为这些令牌是“用于内部思维链和检索/浏览集成的第一级钩子”。DeepSeek V3.1是DeepSeek V3首个小版本的更新,我们期待DeepSeek后续能够给我们带来更多的惊喜。尽管发布方式安静,但 AI 社区的反应迅速,立即引发了热烈的讨论和猜测。DeepSeek V3.1的模型权重已经在Hugging Face [1]上开源,但暂时没有更新模型卡,需要等待模型卡更新后,才能了解到官方的更新详情。根据网友提供的客服回复[2],确实也证实了这一点,双模型合并为一个模型。

2025-08-21 00:52:45 683

原创 告别炼丹玄学:一文带你精通PyTorch学习率调参(内附6大策略与代码)

今天,我们从学习率的基础概念,聊到了动态调整的智慧,最后还盘点了PyTorch中6个强大的学习率调度器。掌握它们,无疑会让你在模型训练中更加得心应手,告别盲目“炼丹”。当然,学习率调度只是模型优化庞大世界中的一个关键环节。一个成功的模型背后,还涉及到:优化器(Optimizer)的选择:Adam、SGD、RMSprop... 它们各自的优势和劣势是什么?正则化技术:如何通过Dropout、权重衰减等手段防止模型过拟合?

2025-08-19 16:35:32 1007

原创 语言模型究竟可以“小”到什么程度?还能流利地讲故事?

大模型的应用越来越多,“堆参数”成为了提升大模型性能最直接的方法。大模型最重要的特性就是“大”,大到需要用“亿”来衡量,DeepSeek的参数量甚至达到了6000亿。但你有没有想过,语言模型究竟可以“小”到什么程度?小模型还能够生成顺畅的文字吗?最近读了一篇23年的论文:《TinyStories: How Small Can Language Models Be and Still Speak Coherent English?这是一篇来自微软亚洲研究院的论文。这篇论文为我们清楚的解释了这个问题。

2025-07-12 13:45:02 418

原创 开源!RAG竞技场(3):语义分割的RAG(Semantic Chunking RAG)

这是我们流程的核心。函数实现了将长文档智能地分割成语义连贯的文本块的逻辑。分割成句子: 使用正则表达式将整篇文档分割成独立的句子。这是语义分析的基本单位。生成句子嵌入: 调用embedder将每个句子转换成一个高维向量。这个向量代表了句子的语义信息。计算相邻距离: 遍历所有相邻的句子对,计算它们嵌入向量之间的余弦距离(1 - 余弦相似度)。距离越大,表示两个句子的语义差异越大。确定分割阈值: 我们不使用固定的距离阈值,而是计算所有相邻距离的百分位数(例如95%)。

2025-07-10 20:42:26 1189

原创 开源!RAG竞技场(2):标准RAG算法

项目摘要 本项目开源了一个RAG算法评估框架(RAG-Arena),包含多种RAG算法的实现与评估。标准RAG流程分为检索、增强、生成三个阶段:首先使用嵌入模型检索相关文本块,然后拼接上下文信息,最后由LLM生成回复。研究表明,思考模式融合和通用RL训练可能损害模型处理复杂问题的能力。项目提供了完整评估流程,包括文档分块、向量化、相似度计算等步骤,并展示了具体案例(如Qwen3模型性能分析)。评估结果显示标准RAG评分为3.47分(满分5分),同时探讨了参数设置(如k值)对性能的影响。项目将持续更新更多RA

2025-07-06 15:32:55 801

原创 开源!RAG竞技场(1):评估策略

至此,RAG竞技场的评估策略全部介绍完毕。我们将在下一篇文章中开启各种RAG算法的评估!

2025-07-02 10:12:23 835

原创 从零开始构建RAG(检索增强生成)

为什么需要分块?LLM的上下文窗口是有限的,我们不能把整篇文档都塞给它。同时,为了进行有效的向量检索,我们需要将文档分割成更小、语义集中的单元。好的分块策略是RAG系统性能的关键之一。这个尊重段落:它首先以\n\n(空行) 为分隔符,将文本分割成段落。这保留了文本的自然结构,避免了从一句话中间切断的尴尬情况。组合段落:然后,它会尝试将多个连续的段落组合在一起,直到它们的总长度接近我们设定的chunk_size。重叠 (Overlap):当一个块创建完成后,下一个块会从上一个块的末尾回退个字符开始。

2025-06-28 20:40:41 1080

原创 什么是RAG?

更精细的方法是,让相邻的块之间有一些重叠。它让AI从一个“什么都懂一点”的通才,变成了一个可以阅读资料,深入我们业务、解决具体问题的专家。用户可能问“出差住酒店的标准”,而文档里写的是“差旅住宿规范”。这些被选中的文本块,就是我们找到的最相关的参考资料。于是,系统从《公司财务制度.pdf》中找到了关于“差旅费用的申请标准”和“报销所需票据”的几个段落。比如,“出差住酒店的标准”这个问题的向量,会和“差旅住宿规范”那个文本块的向量,在空间中离得非常近。它随时可以翻阅我们给它的、最新的、最准确的参考资料。

2025-06-23 11:01:59 639

原创 Qwen3中的MoE是如何平衡专家负载的?

Qwen3通过实现Switch Transformer思想的负载均衡损失函数,有效地解决了MoE架构中的专家负载不均问题。该函数通过统计每个专家接收到的token比例以及门控网络分配给各专家的平均概率,构建了一个惩罚项。这个惩罚项被加到模型的总损失中,在训练过程中引导门控网络学习更均衡的路由策略。这不仅保证了计算资源的有效利用,也促进了各个专家的特化学习,最终有助于提升模型的整体性能和训练稳定性。理解这一机制对于深入掌握和应用MoE大模型至关重要。

2025-05-08 12:46:36 1796

原创 DeepSeek也会Qwen3的混合推理?一行代码解决!

阿里巴巴新推出的Qwen3支持一个有意思的功能:混合推理。混合推理实际上就是让模型能够同时实现“思考”与“非思考”的切换。Qwen3实现混合推理的关键在于,用一段空白的思考内容替代原始模型需要输出的思考,“欺骗”模型已经完成了思考,从而直接生成回复,跳过思考内容。这是一个非常简单又极为巧妙的方法。那么这种混合推理的形式也应该能够迁移到DeepSeek中。接下来,本文将会以transformers部署的DeepSeek-R1-1.5B模型为例,实现DeepSeek的混合推理。

2025-05-05 12:22:09 995

原创 Qwen3的“混合推理”是如何实现的

简单来说,Qwen3 可以在两种不同的模式下运行:思考模式 (Thinking Mode): 在这种模式下,模型会模拟人类解决复杂问题时的思考过程。它会进行更深入的分析、逐步推理(step-by-step reasoning),并将这个思考过程的“痕迹”或中间步骤纳入考量(甚至可能在输出中体现,具体取决于配置)。这对于需要严谨逻辑、复杂推理或创造性解决方案的任务(如数学题、代码生成、深度分析报告)非常有益。

2025-05-05 12:21:55 1765

原创 最顶尖的Prompt都是怎么写——Cline篇

Prompt 不仅列出了连接 MCP 服务器后可用的 use_mcp_tool 和 access_mcp_resource 工具,还提到了 load_mcp_documentation,这表示Cline可以动态加载MCP工具与描述。4. replace_in_file: 精确替换文件中的部分内容。与我们之前分析的 Cursor Prompt 相比,Cline 的 Prompt 展现出一种不同的风格:它更像是一份详尽的技术规格说明书,定义了 AI 的角色、可用工具、交互协议、工作模式以及必须遵守的严格规则。

2025-05-04 12:00:00 2105

原创 最顶尖的Prompt都是怎么写的——Cursor篇

通过对其进行解构分析,我们不仅能一窥顶尖 AI 应用背后的秘密,更能从中汲取宝贵的经验,应用到自己的 Prompt Engineering 实践中。对于某些重要的词语或句子,使用“** **”进行加粗,起到加强语义的作用。今天,我们就来揭开 Cursor Prompt 的神秘面纱,看看一个顶尖的 AI 编码助手是如何通过精心设计的 Prompt 来指导 LLM 完成复杂任务的。由于Agent模式中的工具描述占用了大量的篇幅,为了控制篇幅,我们只展示个别工具的描述,我将会在文章结尾给出所有工具的简介。

2025-05-03 11:00:00 1984

原创 Qwen3 来了:更强、更智能、更开放的下一代大模型!

后训练阶段:针对指令遵循和对话能力,团队采用了创新的四阶段后训练流程:首先通过长思维链数据进行冷启动微调,接着运用强化学习提升探索与深度推理,然后融合思考与非思考模式,最后进行大规模通用能力强化学习,覆盖指令遵循、格式控制、Agent 技能等二十多个领域,全面提升模型的综合素质和安全性。Qwen3-30B-A3B是Qwen3-235B-A22B的蒸馏版本,Qwen3-14B、8B、4B等Dense模型是Qwen3-32B的蒸馏版本。Qwen3 的发布无疑为 AI 社区注入了新的活力。(2)广泛的语言覆盖。

2025-04-29 22:52:45 1711

原创 LoRA无代码微调,轻松构建一个属于自己的LLM

只需进入硅基流动的官方主页,注册登录后点击左侧工具栏的“模型微调”,并在页面中点击“新建微调任务”,就可以轻松开始微调之旅。通过精心准备的数据集和合理的设计,我们可以利用微调技术为各个行业打造专属的“专家”模型,推动人工智能在更多场景中的深度应用。在脑筋急转弯的例子中,我们需要收集大量高质量的问答对,这些问答对需要准确体现脑筋急转弯的特点,即通过语言的巧妙运用产生幽默效果。我们通过对比原始模型、添加系统提示词的模型和微调后的模型在回答脑筋急转弯问题时的表现,来展示微调的效果。首先让我们看一下微调的效果。

2025-04-26 22:13:42 1042

原创 LLM微调与LoRA技术

而PEFT,尤其是近年来备受瞩目的LoRA技术,则提供了一条更为经济高效的路径,仅需调整模型的一小部分参数或增加少量额外参数即可。回答:“根据我国《民法典》第五百八十五条的规定,当事人可以约定一方违约时应当根据违约情况向对方支付一定数额的违约金,也可以约定因违约产生的损失赔偿额的计算方法。在提升专业性的同时,有助于保持模型的通用性。由于训练的参数量大幅减少(新增的A、B矩阵参数远少于原始模型),LoRA显著降低了对计算资源(尤其是显存)的需求和训练时间,使得在相对有限的硬件条件下微调大模型成为现实。

2025-04-24 19:49:27 1038

原创 我复刻了一个Manus

智能体根据输入的需求,首先打开浏览器访问相关的网页,当网页无法访问时,还会自动切换网页,最后,智能体将会把浏览器中收集的数据保存整理为文件,并通过编程的方式,通过Python脚本绘制折线图。docker容器中需要有一个路径与本机中的某个路径相绑定,两个路径中的文件是同步的,这样的设定能够方便后端获取智能体在docker中生成的文件,从而展示文件的内容。未来,我们设想 Manus 能集成更多类型的工具,拥有更强的长期记忆和规划能力,并在更复杂的场景中为用户提供端到端的解决方案。并结合MCP实现工具的调用。

2025-04-23 17:49:57 1264

原创 Python yield关键字

流式响应就是,LLM 每生成一小部分(可能是一个词,一句话),就立刻把它发送出来。接收方(比如我们的 Python 后端程序)收到这一小部分后,不是囤着,而是立刻再把它发给最终用户(比如网页)。,因为它允许我们“来多少,处理多少,传递多少”,从而给用户带来更流畅、更即时的体验。方式是“要一个,给一个”,它只在需要的时候才计算和生成数据,并且每次只占用当前计算所需的少量内存。这样一来,用户就能看到文字一点点出现,而不是等待最后的结果。想象一下,你要处理一个超级大的文件,或者生成一个包含一百万个元素的序列。

2025-04-13 16:38:17 1238

原创 我构建了一个能“上网冲浪”的DeepSeek智能体:DeepSeek结合Playwright MCP服务

接下来通过一个循环控制对话逻辑,这个“指令 -> 理解 -> 调用 -> 执行 -> 返回 -> 响应”的循环,赋予了AI智能体前所未有的与网络世界实时互动的能力。我们可以看到,服务端中一共提供了20个工具,包括访问URL、点击、拖拽、截图、保存PDF等操作,DeepSeek将会学习使用这些工具,完成用户的需求。Playwright提供了操作浏览器的相关MCP服务,我们只需要调用MCP提供的服务即可。我们要在客户端中连接服务端,并且查询服务端中提供的服务,并实现与DeepSeek的交互。

2025-04-12 16:06:13 1274

原创 DeepSeek操作MySQL数据库:使用MCP实现数据库查询

这段函数展示了客户端的对话逻辑,当用户输入问题后,DeepSeek将给出回复,我们可以通过execute_tool函数来判定DeepSeek的输出是否为工具调用形式,若是,则解析参数,执行工具;这是因为,DeepSeek等LLM存在一定的幻觉,DeepSeek可能会先入为主的认为“商品表”的表名就是“Product”,然后去执行Product表的查询,然而,实际的数据库中可能根本不存在这个表,这就造成工具调用的报错,DeepSeek还需要在不断的调试中完成任务。接下来,我们将会介绍代码的实现过程。

2025-04-10 14:44:24 2130

原创 异步Python:构建高效LLM智能体的必备技能

在踏上构建大型语言模型(LLM)智能体的激动人心的旅程时,我们很快会发现,智能体需要与外部世界进行大量交互:调用LLM API获取推理、查询数据库、使用外部工具、等待用户输入等等。总的执行时间将约等于耗时最长的那个任务的时间(比如2.5秒),而不是两个任务时间的总和(4.5秒)。库,允许我们在等待一个耗时操作(如API调用)完成时,切换去执行其他任务,从而极大地提高程序的并发能力和响应速度。在LLM智能体中,如果你需要限制对某个特定工具API的并发调用次数,或者需要安全地更新智能体的内部状态,

2025-04-10 14:39:47 1190

原创 DeepSeek也能用高德地图!Python MCP客户端SSE传输接入高德MCP服务(附完整代码)

DeepSeek与高德地图将会碰撞出怎样的火花,DeepSeek又怎么通过借助高德地图MCP实现路径规划、行程安排等功能,本文会给你答案。高德地图官方提供了在Cursor中使用高德MCP服务的案例:向大模型提出需求“明天到北京国贸出差,帮我预定1km以内的3星级酒店”。可以看到,Cursor在接入了高德MCP之后,LLM能够实现利用高德地图提供的工具,查找北京国贸附近的酒店。

2025-04-09 16:01:31 3708 2

原创 MCP详解:10分钟快速入门MCP开发

MCP 是一个由 Anthropic 发起并开源的协议,旨在标准化 AI 模型(尤其是 LLM)与外部数据源和工具交互的方式。可以将其理解为 AI 应用的 "USB-C 接口",让不同的 LLM 能够以统一的方式连接和使用各种外部资源。高德地图已经提出了MCP服务器的解决方案,这意味着DeepSeek等LLM能够实现对地图的操作,包括路径规划、地点搜索等,这将进一步的扩展LLM的能力,不久将会出现更多的DeepSeek导航应用等。未来也会出现更多MCP服务,让AI操作更多的软件,实现更多的功能。

2025-04-07 12:48:37 2158

原创 一文带你彻底搞懂MCP

LLM将会函数的介绍,理解函数的作用。函数介绍包括:函数的作用、参数的类型、参数的作用等。tools =[},},},这是一个天气查询的函数,参数为location,LLM将会通过这些介绍,学会如何调用函数。最后把函数执行的结果反馈给DeepSeek,DeepSeek再整理执行结果,给出回复。在这个过程中,会遇到一些问题:对于DeepSeek来说,这个功能是不稳定的,DeepSeek团队也表示正在积极修复。对于不同模型来说,不同模型的函数介绍格式不同、返回的参数格式不同。

2025-03-20 23:13:55 1543

原创 DeepSeek-R1 Ollama部署+Cherry Studio,实现本地大模型知识库

本地知识库通常包含企业或机构的私有数据(如内部文档、客户档案、行业术语库等),这些数据涉及商业机密或敏感信息,若依赖云端服务处理,可能面临合规风险或第三方泄露隐患。通过DeepSeek本地化部署,DeepSeek可直接在内部服务器访问知识库,确保数据无需离开本地环境,既符合数据保护法规,又能通过内网隔离降低外部攻击风险。本文将介绍如何通过Ollama实现DeepSeek的本地部署,并结合Cherry Studio,实现本地大模型知识库。

2025-02-28 21:15:59 1603 1

原创 YOLOv12上线!纽约州立大学联合中科院,再造目标检测新高度

2025年2月19日,YOLOv12发布,YOLOv12与其它YOLO模型的对比如下:论文地址:https://arxiv.org/pdf/2502.12524代码地址:https://github.com/sunsmarterjie/yolov12YOLOv12在继承YOLO系列高效性的同时,引入了注意力机制(attention mechanisms),显著提升了检测精度,同时保持了快速的推理速度。

2025-02-20 17:32:48 2489

原创 AI大模型真的会思考和推理吗?

通用语言大模型学习数字之间的关系,往往是通过语料来学习的,例如,训练时可能有这样一条语料“9比10小”,模型会记住“9”与“10”之间的关系是“小”,而通过这条语料,模型并不能理解“9.11比9.9小”,因为数字的连续关系在向量化的过程中丢失了。CoT的优势是“结构化输出”,而非“真思维”。切词:“小明”、“有”、“5”、“个”、“苹果”、“,”、“买”、“了”、“3”、“袋”、“苹果”、“,”、“每”、“袋”、“8”、“个”、“,”、“吃掉”、“2”、“个”、“现在”、“有”、“多少”、“苹果”、“?

2025-02-15 14:31:05 2242

原创 DeepSeek预测《哪吒3》剧情:《哪吒之魔童觉醒:封神劫起》

最近《哪吒之魔童闹海》的火爆,点燃了观众的热情,不少观众都迫不及待地想要了解《哪吒3》的内容。今天我们就用DeepSeek来预测一下《哪吒3》的剧情走向。由于《哪吒之魔童闹海》的内容并不在DeepSeek的知识库范围中,因此需要打开“联网搜索”的功能,让DeepSeek在互联网上搜索并了解《哪吒之魔童闹海》的剧情与彩蛋。

2025-02-15 00:33:41 3201

原创 通用AI大模型不会打牌?DeepSeek、Kimi、ChatGPT一起打斗地主会发生什么

最近过年走亲戚,总要参与一把欢乐斗地主或者掼蛋。我技术一般,可谓是被家里的亲戚虐了个遍。于是,我突发奇想,能不能让AI来打斗地主,看看会发生什么有意思的事。由于斗地主涉及到逻辑的推理,因此我选择了使用比较多的三个推理大模型,来参与斗地主游戏

2025-02-10 21:09:28 1996

原创 教你一招拒绝DeepSeek“服务器繁忙,请稍后再试。”

当你跟DeepSeek聊得尽兴时,是否会出现下面的情况......在疯狂刷新后,仍无济于事,甚至可能出现“请求过于频繁,请稍后再试”,然后,就不能重新生成了。DeepSeek比肩GPT的性能吸引了大量的用户,然而DeepSeek毕竟是初创公司,计算资源有限,无法满足如此多的用户请求。这也使得DeepSeek在使用的过程中体验变差。本文将教你一招拒绝“服务器繁忙,请稍后再试。”,为你提供更流畅的DeepSeek使用。

2025-02-09 14:22:15 3110

原创 编程小白也能开发小游戏!不敲一行代码,DeepSeek 全自动化编程

需要注意的是,DeepSeek支持输入的Token数量较少,因此更适合写更为简短的代码,在输入要求时,也可以提出要求,使得代码尽量精简。安装成功后,左侧将会出现一个Cline的图标,我们点击这个图标,打开Cline。VSCode可以说是每个程序员的标配,Python是最简单的编程语言,安装过程非常简单,可以自行百度,下面是一篇参看,按照教程完成后,即可开始下面的步骤。注册完成后,硅基流动将会赠送14元的余额,DeepSeek API的价格非常低,14元足够使用很长一段时间。命名完成后,点击新建密钥。

2025-02-07 23:29:09 1895

原创 解锁DeepSeek R1数据限制:一台电脑打造高效个人知识库

首先点击左下角的小扳手,打开设置,找到 人工智能提供商 -> Embedder首选项,选择嵌入引擎提供商为Ollama,模型选择为deepseek-r1:1.5b,最后点击保存更改。告诉DeepSeek"总结资料,如何将DeepSeek接入Word",DeepSeek能够按照文档的内容进行总结,生成输出,但DeepSeek目前暂时还无法解析图片,因此只能根据文档内的文本内容做出回答。小编的笔记本显存为6G,因此选择最小的1.5b模型进行部署,如果显存更大的话,可以选择更大的模型。

2025-02-07 23:27:16 1592

原创 本地Ollama部署DeepSeek R1模型接入Word

而DeepSeek由于近期服务器压力较大,暂时停止了API key的注册服务,那么要想实现DeepSeek与Word的结合,我们也可以通过本地部署的方式进行。此代码在上一次代码的基础上进行了优化,对大模型md格式的输出进行了优化,去掉了md格式的修饰,只保留纯文本;在上一个版本中,大模型输出的“\n”会被当做文本显示,而此版本的代码直接将“\n”当作回车处理,结果更加美观。小编的笔记本显存为6G,因此选择最小的1.5b模型进行部署,如果显存更大的话,可以选择更大的模型。本地处理减少网络传输,响应速度更快。

2025-02-04 19:51:13 13792 18

原创 DeepSeek最新图像模型Janus-Pro论文阅读

在本研究中,我们介绍了 Janus-Pro,这是之前工作 Janus 的一个高级版本。具体来说,Janus-Pro 采用了(1)优化的训练策略,(2)扩展的训练数据,以及(3)更大的模型规模。凭借这些改进,Janus-Pro 在多模态理解和文本到图像的指令跟随能力方面取得了显著进展,同时增强了文本到图像生成的稳定性。我们希望这项工作能够激发该领域的进一步探索。代码和模型已公开。

2025-02-04 19:40:52 2115 1

原创 办公新利器:DeepSeek+Word,让你的工作更高效

DeepSeek与Word的梦幻联动,将为你开启高效办公的新篇章!熟悉的Word界面中,只需轻点鼠标,就能召唤出强大的DeepSeek,让它为你快速检索信息、精准翻译文本、智能生成内容…… 告别在不同软件间来回切换的繁琐,告别低效的信息获取方式,让办公效率飞起来!

2025-02-02 15:30:00 28118 36

原创 DeepSeek实现低成本训练,原来是靠它!

DeepSeek推出的最新推理模型,以500万美元的训练成本,比肩数亿美元成本的OpenAI o1,离不开各种优化策略,除了之前提到的“知识蒸馏”以外,还包括今天的主角MoE。在机器学习和深度学习领域,模型的设计和优化一直是研究的核心。近年来,一种名为的模型架构逐渐引起了广泛关注。MoE模型通过结合多个“专家”模型的优势,能够在处理复杂任务时表现出色。本文将详细介绍MoE模型的基本概念、工作原理、优势以及应用场景。

2025-01-30 18:16:52 1862

学生信息管理系统 Element-ui+Servlet+Mybatis

学生信息管理系统 Element-ui+Servlet+Mybatis 前端用到了vue框架,Element-ui设计样式 ,用Ajax发送请求和接收相应。 服务器使用的是Tomcat。 后端用到了Servlet接收请求和发送相应,用Mybatis连接数据库。 数据库使用的是MySQL 8.0.28。 这是我做的第一个JavaWeb系统,还有很多不足和需要修改的地方,如果有发现不足和应该修改的地方,还请告知。 还在学习中,欢迎私信交流

2022-04-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除