- 博客(73)
- 资源 (1)
- 问答 (2)
- 收藏
- 关注
原创 Qwen3中的MoE是如何平衡专家负载的?
Qwen3通过实现Switch Transformer思想的负载均衡损失函数,有效地解决了MoE架构中的专家负载不均问题。该函数通过统计每个专家接收到的token比例以及门控网络分配给各专家的平均概率,构建了一个惩罚项。这个惩罚项被加到模型的总损失中,在训练过程中引导门控网络学习更均衡的路由策略。这不仅保证了计算资源的有效利用,也促进了各个专家的特化学习,最终有助于提升模型的整体性能和训练稳定性。理解这一机制对于深入掌握和应用MoE大模型至关重要。
2025-05-08 12:46:36
846
原创 DeepSeek也会Qwen3的混合推理?一行代码解决!
阿里巴巴新推出的Qwen3支持一个有意思的功能:混合推理。混合推理实际上就是让模型能够同时实现“思考”与“非思考”的切换。Qwen3实现混合推理的关键在于,用一段空白的思考内容替代原始模型需要输出的思考,“欺骗”模型已经完成了思考,从而直接生成回复,跳过思考内容。这是一个非常简单又极为巧妙的方法。那么这种混合推理的形式也应该能够迁移到DeepSeek中。接下来,本文将会以transformers部署的DeepSeek-R1-1.5B模型为例,实现DeepSeek的混合推理。
2025-05-05 12:22:09
409
原创 Qwen3的“混合推理”是如何实现的
简单来说,Qwen3 可以在两种不同的模式下运行:思考模式 (Thinking Mode): 在这种模式下,模型会模拟人类解决复杂问题时的思考过程。它会进行更深入的分析、逐步推理(step-by-step reasoning),并将这个思考过程的“痕迹”或中间步骤纳入考量(甚至可能在输出中体现,具体取决于配置)。这对于需要严谨逻辑、复杂推理或创造性解决方案的任务(如数学题、代码生成、深度分析报告)非常有益。
2025-05-05 12:21:55
1034
原创 最顶尖的Prompt都是怎么写——Cline篇
Prompt 不仅列出了连接 MCP 服务器后可用的 use_mcp_tool 和 access_mcp_resource 工具,还提到了 load_mcp_documentation,这表示Cline可以动态加载MCP工具与描述。4. replace_in_file: 精确替换文件中的部分内容。与我们之前分析的 Cursor Prompt 相比,Cline 的 Prompt 展现出一种不同的风格:它更像是一份详尽的技术规格说明书,定义了 AI 的角色、可用工具、交互协议、工作模式以及必须遵守的严格规则。
2025-05-04 12:00:00
1303
原创 最顶尖的Prompt都是怎么写的——Cursor篇
通过对其进行解构分析,我们不仅能一窥顶尖 AI 应用背后的秘密,更能从中汲取宝贵的经验,应用到自己的 Prompt Engineering 实践中。对于某些重要的词语或句子,使用“** **”进行加粗,起到加强语义的作用。今天,我们就来揭开 Cursor Prompt 的神秘面纱,看看一个顶尖的 AI 编码助手是如何通过精心设计的 Prompt 来指导 LLM 完成复杂任务的。由于Agent模式中的工具描述占用了大量的篇幅,为了控制篇幅,我们只展示个别工具的描述,我将会在文章结尾给出所有工具的简介。
2025-05-03 11:00:00
908
原创 连夜读完了Qwen3的2000行代码,我画出了Qwen3的结构图
除了其在各项基准测试上的出色表现和对多语言、思考模式的创新支持外,其开源的代码实现也为我们提供了一个深入了解其内部结构和设计的绝佳机会。这种方式允许模型在保持(甚至降低)每个 Token 推理计算量的情况下,显著增加模型的总参数量(通过增加专家数量),从而可能提升模型的容量和性能。Qwen3 Dense的模型结构与Qwen2大体相同,只是在注意力层的加入了对q和k的归一化。Qwen3的注意力机制在Qwen2的基础上进行了微调,在Q、K的线性投影后面分别加入了一个归一化层,有助于提高稳定性。
2025-04-30 17:10:14
1413
3
原创 Qwen3 来了:更强、更智能、更开放的下一代大模型!
后训练阶段:针对指令遵循和对话能力,团队采用了创新的四阶段后训练流程:首先通过长思维链数据进行冷启动微调,接着运用强化学习提升探索与深度推理,然后融合思考与非思考模式,最后进行大规模通用能力强化学习,覆盖指令遵循、格式控制、Agent 技能等二十多个领域,全面提升模型的综合素质和安全性。Qwen3-30B-A3B是Qwen3-235B-A22B的蒸馏版本,Qwen3-14B、8B、4B等Dense模型是Qwen3-32B的蒸馏版本。Qwen3 的发布无疑为 AI 社区注入了新的活力。(2)广泛的语言覆盖。
2025-04-29 22:52:45
1183
原创 LoRA无代码微调,轻松构建一个属于自己的LLM
只需进入硅基流动的官方主页,注册登录后点击左侧工具栏的“模型微调”,并在页面中点击“新建微调任务”,就可以轻松开始微调之旅。通过精心准备的数据集和合理的设计,我们可以利用微调技术为各个行业打造专属的“专家”模型,推动人工智能在更多场景中的深度应用。在脑筋急转弯的例子中,我们需要收集大量高质量的问答对,这些问答对需要准确体现脑筋急转弯的特点,即通过语言的巧妙运用产生幽默效果。我们通过对比原始模型、添加系统提示词的模型和微调后的模型在回答脑筋急转弯问题时的表现,来展示微调的效果。首先让我们看一下微调的效果。
2025-04-26 22:13:42
800
原创 LLM微调与LoRA技术
而PEFT,尤其是近年来备受瞩目的LoRA技术,则提供了一条更为经济高效的路径,仅需调整模型的一小部分参数或增加少量额外参数即可。回答:“根据我国《民法典》第五百八十五条的规定,当事人可以约定一方违约时应当根据违约情况向对方支付一定数额的违约金,也可以约定因违约产生的损失赔偿额的计算方法。在提升专业性的同时,有助于保持模型的通用性。由于训练的参数量大幅减少(新增的A、B矩阵参数远少于原始模型),LoRA显著降低了对计算资源(尤其是显存)的需求和训练时间,使得在相对有限的硬件条件下微调大模型成为现实。
2025-04-24 19:49:27
979
原创 我复刻了一个Manus
智能体根据输入的需求,首先打开浏览器访问相关的网页,当网页无法访问时,还会自动切换网页,最后,智能体将会把浏览器中收集的数据保存整理为文件,并通过编程的方式,通过Python脚本绘制折线图。docker容器中需要有一个路径与本机中的某个路径相绑定,两个路径中的文件是同步的,这样的设定能够方便后端获取智能体在docker中生成的文件,从而展示文件的内容。未来,我们设想 Manus 能集成更多类型的工具,拥有更强的长期记忆和规划能力,并在更复杂的场景中为用户提供端到端的解决方案。并结合MCP实现工具的调用。
2025-04-23 17:49:57
1105
原创 Python yield关键字
流式响应就是,LLM 每生成一小部分(可能是一个词,一句话),就立刻把它发送出来。接收方(比如我们的 Python 后端程序)收到这一小部分后,不是囤着,而是立刻再把它发给最终用户(比如网页)。,因为它允许我们“来多少,处理多少,传递多少”,从而给用户带来更流畅、更即时的体验。方式是“要一个,给一个”,它只在需要的时候才计算和生成数据,并且每次只占用当前计算所需的少量内存。这样一来,用户就能看到文字一点点出现,而不是等待最后的结果。想象一下,你要处理一个超级大的文件,或者生成一个包含一百万个元素的序列。
2025-04-13 16:38:17
1009
原创 我构建了一个能“上网冲浪”的DeepSeek智能体:DeepSeek结合Playwright MCP服务
接下来通过一个循环控制对话逻辑,这个“指令 -> 理解 -> 调用 -> 执行 -> 返回 -> 响应”的循环,赋予了AI智能体前所未有的与网络世界实时互动的能力。我们可以看到,服务端中一共提供了20个工具,包括访问URL、点击、拖拽、截图、保存PDF等操作,DeepSeek将会学习使用这些工具,完成用户的需求。Playwright提供了操作浏览器的相关MCP服务,我们只需要调用MCP提供的服务即可。我们要在客户端中连接服务端,并且查询服务端中提供的服务,并实现与DeepSeek的交互。
2025-04-12 16:06:13
869
原创 DeepSeek操作MySQL数据库:使用MCP实现数据库查询
这段函数展示了客户端的对话逻辑,当用户输入问题后,DeepSeek将给出回复,我们可以通过execute_tool函数来判定DeepSeek的输出是否为工具调用形式,若是,则解析参数,执行工具;这是因为,DeepSeek等LLM存在一定的幻觉,DeepSeek可能会先入为主的认为“商品表”的表名就是“Product”,然后去执行Product表的查询,然而,实际的数据库中可能根本不存在这个表,这就造成工具调用的报错,DeepSeek还需要在不断的调试中完成任务。接下来,我们将会介绍代码的实现过程。
2025-04-10 14:44:24
1309
原创 异步Python:构建高效LLM智能体的必备技能
在踏上构建大型语言模型(LLM)智能体的激动人心的旅程时,我们很快会发现,智能体需要与外部世界进行大量交互:调用LLM API获取推理、查询数据库、使用外部工具、等待用户输入等等。总的执行时间将约等于耗时最长的那个任务的时间(比如2.5秒),而不是两个任务时间的总和(4.5秒)。库,允许我们在等待一个耗时操作(如API调用)完成时,切换去执行其他任务,从而极大地提高程序的并发能力和响应速度。在LLM智能体中,如果你需要限制对某个特定工具API的并发调用次数,或者需要安全地更新智能体的内部状态,
2025-04-10 14:39:47
946
原创 DeepSeek也能用高德地图!Python MCP客户端SSE传输接入高德MCP服务(附完整代码)
DeepSeek与高德地图将会碰撞出怎样的火花,DeepSeek又怎么通过借助高德地图MCP实现路径规划、行程安排等功能,本文会给你答案。高德地图官方提供了在Cursor中使用高德MCP服务的案例:向大模型提出需求“明天到北京国贸出差,帮我预定1km以内的3星级酒店”。可以看到,Cursor在接入了高德MCP之后,LLM能够实现利用高德地图提供的工具,查找北京国贸附近的酒店。
2025-04-09 16:01:31
2907
2
原创 MCP详解:10分钟快速入门MCP开发
MCP 是一个由 Anthropic 发起并开源的协议,旨在标准化 AI 模型(尤其是 LLM)与外部数据源和工具交互的方式。可以将其理解为 AI 应用的 "USB-C 接口",让不同的 LLM 能够以统一的方式连接和使用各种外部资源。高德地图已经提出了MCP服务器的解决方案,这意味着DeepSeek等LLM能够实现对地图的操作,包括路径规划、地点搜索等,这将进一步的扩展LLM的能力,不久将会出现更多的DeepSeek导航应用等。未来也会出现更多MCP服务,让AI操作更多的软件,实现更多的功能。
2025-04-07 12:48:37
1742
原创 一文带你彻底搞懂MCP
LLM将会函数的介绍,理解函数的作用。函数介绍包括:函数的作用、参数的类型、参数的作用等。tools =[},},},这是一个天气查询的函数,参数为location,LLM将会通过这些介绍,学会如何调用函数。最后把函数执行的结果反馈给DeepSeek,DeepSeek再整理执行结果,给出回复。在这个过程中,会遇到一些问题:对于DeepSeek来说,这个功能是不稳定的,DeepSeek团队也表示正在积极修复。对于不同模型来说,不同模型的函数介绍格式不同、返回的参数格式不同。
2025-03-20 23:13:55
1210
原创 DeepSeek-R1 Ollama部署+Cherry Studio,实现本地大模型知识库
本地知识库通常包含企业或机构的私有数据(如内部文档、客户档案、行业术语库等),这些数据涉及商业机密或敏感信息,若依赖云端服务处理,可能面临合规风险或第三方泄露隐患。通过DeepSeek本地化部署,DeepSeek可直接在内部服务器访问知识库,确保数据无需离开本地环境,既符合数据保护法规,又能通过内网隔离降低外部攻击风险。本文将介绍如何通过Ollama实现DeepSeek的本地部署,并结合Cherry Studio,实现本地大模型知识库。
2025-02-28 21:15:59
1130
1
原创 YOLOv12上线!纽约州立大学联合中科院,再造目标检测新高度
2025年2月19日,YOLOv12发布,YOLOv12与其它YOLO模型的对比如下:论文地址:https://arxiv.org/pdf/2502.12524代码地址:https://github.com/sunsmarterjie/yolov12YOLOv12在继承YOLO系列高效性的同时,引入了注意力机制(attention mechanisms),显著提升了检测精度,同时保持了快速的推理速度。
2025-02-20 17:32:48
1829
原创 AI大模型真的会思考和推理吗?
通用语言大模型学习数字之间的关系,往往是通过语料来学习的,例如,训练时可能有这样一条语料“9比10小”,模型会记住“9”与“10”之间的关系是“小”,而通过这条语料,模型并不能理解“9.11比9.9小”,因为数字的连续关系在向量化的过程中丢失了。CoT的优势是“结构化输出”,而非“真思维”。切词:“小明”、“有”、“5”、“个”、“苹果”、“,”、“买”、“了”、“3”、“袋”、“苹果”、“,”、“每”、“袋”、“8”、“个”、“,”、“吃掉”、“2”、“个”、“现在”、“有”、“多少”、“苹果”、“?
2025-02-15 14:31:05
1578
原创 DeepSeek预测《哪吒3》剧情:《哪吒之魔童觉醒:封神劫起》
最近《哪吒之魔童闹海》的火爆,点燃了观众的热情,不少观众都迫不及待地想要了解《哪吒3》的内容。今天我们就用DeepSeek来预测一下《哪吒3》的剧情走向。由于《哪吒之魔童闹海》的内容并不在DeepSeek的知识库范围中,因此需要打开“联网搜索”的功能,让DeepSeek在互联网上搜索并了解《哪吒之魔童闹海》的剧情与彩蛋。
2025-02-15 00:33:41
1813
原创 通用AI大模型不会打牌?DeepSeek、Kimi、ChatGPT一起打斗地主会发生什么
最近过年走亲戚,总要参与一把欢乐斗地主或者掼蛋。我技术一般,可谓是被家里的亲戚虐了个遍。于是,我突发奇想,能不能让AI来打斗地主,看看会发生什么有意思的事。由于斗地主涉及到逻辑的推理,因此我选择了使用比较多的三个推理大模型,来参与斗地主游戏
2025-02-10 21:09:28
1306
原创 教你一招拒绝DeepSeek“服务器繁忙,请稍后再试。”
当你跟DeepSeek聊得尽兴时,是否会出现下面的情况......在疯狂刷新后,仍无济于事,甚至可能出现“请求过于频繁,请稍后再试”,然后,就不能重新生成了。DeepSeek比肩GPT的性能吸引了大量的用户,然而DeepSeek毕竟是初创公司,计算资源有限,无法满足如此多的用户请求。这也使得DeepSeek在使用的过程中体验变差。本文将教你一招拒绝“服务器繁忙,请稍后再试。”,为你提供更流畅的DeepSeek使用。
2025-02-09 14:22:15
2462
原创 编程小白也能开发小游戏!不敲一行代码,DeepSeek 全自动化编程
需要注意的是,DeepSeek支持输入的Token数量较少,因此更适合写更为简短的代码,在输入要求时,也可以提出要求,使得代码尽量精简。安装成功后,左侧将会出现一个Cline的图标,我们点击这个图标,打开Cline。VSCode可以说是每个程序员的标配,Python是最简单的编程语言,安装过程非常简单,可以自行百度,下面是一篇参看,按照教程完成后,即可开始下面的步骤。注册完成后,硅基流动将会赠送14元的余额,DeepSeek API的价格非常低,14元足够使用很长一段时间。命名完成后,点击新建密钥。
2025-02-07 23:29:09
1314
原创 解锁DeepSeek R1数据限制:一台电脑打造高效个人知识库
首先点击左下角的小扳手,打开设置,找到 人工智能提供商 -> Embedder首选项,选择嵌入引擎提供商为Ollama,模型选择为deepseek-r1:1.5b,最后点击保存更改。告诉DeepSeek"总结资料,如何将DeepSeek接入Word",DeepSeek能够按照文档的内容进行总结,生成输出,但DeepSeek目前暂时还无法解析图片,因此只能根据文档内的文本内容做出回答。小编的笔记本显存为6G,因此选择最小的1.5b模型进行部署,如果显存更大的话,可以选择更大的模型。
2025-02-07 23:27:16
1438
原创 本地Ollama部署DeepSeek R1模型接入Word
而DeepSeek由于近期服务器压力较大,暂时停止了API key的注册服务,那么要想实现DeepSeek与Word的结合,我们也可以通过本地部署的方式进行。此代码在上一次代码的基础上进行了优化,对大模型md格式的输出进行了优化,去掉了md格式的修饰,只保留纯文本;在上一个版本中,大模型输出的“\n”会被当做文本显示,而此版本的代码直接将“\n”当作回车处理,结果更加美观。小编的笔记本显存为6G,因此选择最小的1.5b模型进行部署,如果显存更大的话,可以选择更大的模型。本地处理减少网络传输,响应速度更快。
2025-02-04 19:51:13
12993
15
原创 DeepSeek最新图像模型Janus-Pro论文阅读
在本研究中,我们介绍了 Janus-Pro,这是之前工作 Janus 的一个高级版本。具体来说,Janus-Pro 采用了(1)优化的训练策略,(2)扩展的训练数据,以及(3)更大的模型规模。凭借这些改进,Janus-Pro 在多模态理解和文本到图像的指令跟随能力方面取得了显著进展,同时增强了文本到图像生成的稳定性。我们希望这项工作能够激发该领域的进一步探索。代码和模型已公开。
2025-02-04 19:40:52
1898
1
原创 办公新利器:DeepSeek+Word,让你的工作更高效
DeepSeek与Word的梦幻联动,将为你开启高效办公的新篇章!熟悉的Word界面中,只需轻点鼠标,就能召唤出强大的DeepSeek,让它为你快速检索信息、精准翻译文本、智能生成内容…… 告别在不同软件间来回切换的繁琐,告别低效的信息获取方式,让办公效率飞起来!
2025-02-02 15:30:00
27188
36
原创 DeepSeek实现低成本训练,原来是靠它!
DeepSeek推出的最新推理模型,以500万美元的训练成本,比肩数亿美元成本的OpenAI o1,离不开各种优化策略,除了之前提到的“知识蒸馏”以外,还包括今天的主角MoE。在机器学习和深度学习领域,模型的设计和优化一直是研究的核心。近年来,一种名为的模型架构逐渐引起了广泛关注。MoE模型通过结合多个“专家”模型的优势,能够在处理复杂任务时表现出色。本文将详细介绍MoE模型的基本概念、工作原理、优势以及应用场景。
2025-01-30 18:16:52
1652
原创 AI编程利器Cursor,教你10秒速成编程高手
Cursor 是一款集成了先进大型语言模型(LLM)的代码编辑器,其设计灵感来源于广受欢迎的 Visual Studio Code(VS Code),并在此基础上添加了强大的 AI 辅助编程功能。它支持多种先进模型,如 GPT-4 和 Claude 3.5,能够通过自然语言交互生成代码,帮助开发者快速解决问题。如果你熟悉VS Code,那么你可以无缝衔接Cursor;如果你熟悉PyCharm、Idea等,你也可以轻松上手Cursor。:根据上下文提供准确的代码建议。:通过自然语言描述生成完整的代码。
2025-01-30 11:31:34
1763
原创 DeepSeek R1中提到“知识蒸馏”到底是什么
想象你是一个刚学做菜的新手,想复刻米其林大厨的招牌菜。如果只告诉你最终味道(比如“酸甜适中”),你很难完美复制。但如果你能知道大厨做菜时的每个细节(比如火候调整顺序、调料配比、食材处理技巧),你就能学得更像。深度学习中的知识蒸馏(Knowledge Distillation)一个复杂的大模型(比如GPT-3、ResNet-152),性能强大但计算成本高。学生模型(Student Model):一个简单的小模型(比如MobileNet),轻量但性能较弱。
2025-01-29 18:39:34
4291
3
原创 一文读懂DeepSeek-R1论文
论文提出了基于强化学习(RL)的推理模型和。:完全通过大规模强化学习(无需监督微调/SFT)训练,展示了强大的推理能力,但存在可读性差、语言混合等问题。:在强化学习前引入冷启动数据和多阶段训练(SFT + RL),解决了可读性问题,性能与相当。开源贡献:发布 DeepSeek-R1-Zero、DeepSeek-R1 及基于 Qwen 和 Llama 的 6 个蒸馏模型(1.5B 至 70B),供研究社区使用。DeepSeek-R1-Zero 的训练强化学习算法。
2025-01-28 15:32:58
4270
原创 PyCharm接入DeepSeek实现AI编程
DeepSeek 是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的 AI 模型。DeepSeek-V3 是 DeepSeek 公司推出的最新一代 AI 模型。其前身是 DeepSeek-V2.5,经过持续的优化和升级,V3 版本在性能、速度和成本方面都取得了显著提升。DeepSeek-V3 的发布表明,国产 AI 模型在技术层面已经具备与国际顶尖模型(例如 GPT-4o)竞争的实力。接下来,我们把DeepSeek接入到PyCharm中,并利用其能力辅助我们进行代码开发。
2025-01-26 20:58:53
42549
34
原创 本地部署大模型实现OCR识别
在数字化时代,光学字符识别(OCR)技术已成为信息处理和文档管理的重要工具。近年来,随着大模型技术的兴起,OCR技术迎来了新的发展机遇。本文将探讨大模型在OCR识别中的应用,分析其技术优势、行业实践以及未来趋势。
2025-01-23 10:51:06
3792
原创 一文学会YOLO系列算法(从V3到11)实现遥感图像目标检测
遥感技术的快速发展,特别是在高分辨率遥感图像的获取能力上的显著提升,已经大大拓宽了遥感数据在环境监测、灾害评估、城市规划及军事侦察等领域的应用范围。在这些应用中,遥感目标检测作为一项基础而关键的技术,其研究和发展受到了广泛关注。遥感目标检测旨在从遥感图像中自动识别并定位地表特定目标,其挑战在于需要处理大尺寸、高复杂度的图像,并且需要在多变的环境条件下保持高准确率和鲁棒性。随着深度学习技术的快速进步,基于深度学习的目标检测算法,尤其是YOLO系列算法,已经成为遥感目标检测领域研究的热点。
2025-01-20 01:26:37
1987
1
原创 时间序列预测——一文搞懂什么是时间序列
时间序列(Time Series)是指按照时间顺序排列的一系列数据点,每个数据点通常在特定时间戳上被收集和记录。简而言之,时间序列是一种按时间维度组织的数据,它能够反映一个变量在不同时间段的变化趋势或行为模式。时间序列数据的核心特征在于时间依赖性,即数据点之间通常存在某种内在的时间序列关系,当前时刻的数据往往受到之前时刻数据的影响。这种依赖关系是时间序列分析和预测的关键所在。顺序性:时间序列数据具有时间顺序特征,时间是数据的一个重要维度,数据点不是独立的,它们的顺序性对分析至关重要。
2025-01-02 19:55:14
3780
原创 大模型的可视化——探索大模型“黑盒”
在深度学习和人工智能领域,大模型(如GPT、BERT等)已经成为了推动技术革新和应用的核心。然而,随着这些模型的不断增大,如何理解和调试这些复杂的模型成为了一个亟待解决的挑战。尽管这些大模型通常拥有出色的预测能力,但它们常常被视为“黑盒”,即我们很难直接理解它们是如何做出决策的。因此,大模型的可视化成为了一个极为重要的研究方向,旨在帮助我们洞察模型内部的机制、提高模型的可解释性、并优化其性能。本文将以Qwen2.5模型为例,实现大模型的可视化。
2025-01-01 18:07:05
1645
原创 目标检测新思路:DETR
DETR(Detection Transformer)是一种基于Transformer架构的目标检测器,为目标检测领域打开了一扇新的大门。但值得注意的是,DETR在COCO数据集上的AP并没有达到SOTA水平,并且存在着难以收敛的问题。随着后续的不断改进,DETR在目标检测任务中越来越好,解决了AP不高和难以收敛等问题。COCO数据集也被DETR后续的不同改进霸榜。期待DETR涌现更多优秀的后续工作。
2023-10-11 20:32:09
1623
2
原创 自监督对比学习框架SimCLR原理
仔细观察图像,亮度较高的两条斜线是由正样本对产生的,说明经过训练的编码器,实现了正样本对之间的特征向量尽可能的相似,而与其他的负样本尽可能的不相似,达到了想要的效果。我们的目的是让softmax函数的分子尽可能的变大,分母尽可能的变小,也就是样本正样本之间的余弦相似度尽可能的大,与负样本之间的余弦相似度尽可能的小。接下来就要通过不同的特征向量,计算其InfoNCE损失,并根据损失,在反向传播的过程中,不断更新编码器中的权重项与偏置项,使得正样本对产生的特征特征向量对之间的相似性尽可能的大。
2023-06-23 19:29:40
7588
5
原创 八数码问题
如下图所示,在节点1完成展开后,open表弹出最后一个节点4,节点4展开形成节点5、6,并将其加入到open表的尾部,接下来将会弹出最后一个节点6,节点6的子节点又会加入到open表的尾部,接下来继续弹出最后一个节点,这个节点则是节点6的子节点。我在代码中做了许多鲁棒性的操作,本来的想法是,将八数码问题很容易的扩展到十五数码问题,但是后来才想到,代码处理节点的方式是将其拉成一条字符串,这样以来,10以上的数字就没有办法表示了,因为他们占了两位字符,只能放弃了这个想法。但把代码中的鲁棒性操作都保留了下来。
2023-03-23 22:19:41
4774
学生信息管理系统 Element-ui+Servlet+Mybatis
2022-04-02
yolo v5的正样本匹配问题
2023-02-21
微信小程序体验版 ios无法请求服务器
2022-08-30
Element中的el-button标签绑定单击事件不生效
2022-03-31
这个mybatis连接mysql8.0的&问题怎么解决
2022-03-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人