算法学习笔记_大模型与计算机视觉的博客-CSDN博客

算法学习笔记

关注

文章平均质量分 91

关注数：文章数：189 文章阅读量：514146 文章收藏量：5374

作者: 大模型与计算机视觉

这个作者很懒，什么都没留下…

展开

北京内推 | 微软AI DKI团队招聘大语言模型方向研究实习生

是时候准备面试和实习了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。微软Data Knowledge Intelligence团队，前身为微软亚洲研究院旗下的研究组，现属于新成立的Microsoft AI部门，致力于人工智能、数据分析、智能决策、软件工程的研究。

原创 2025-05-24 14:19:02 · 471 阅读 · 0 评论
大模型面试必问知识：Transformer、BERT、GPT

是时候准备面试和实习了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。今天来聊一聊BERT和GPT的架构，从而了解大模型的第三步：Transformer。Transformer作为现代大语言模型的基石，其编码器-解码器架构为BERT和GPT提供了截然不同的技术路径。

原创 2025-05-24 14:13:56 · 701 阅读 · 0 评论
行业落地分享：大模型在小红书推荐的应用

小红书推荐算法负责人严岭在2025年全球机器学习技术大会上分享了大模型在小红书推荐系统中的应用实践。小红书通过多轮筛选和排序，结合多模态内容理解技术，精准推送用户感兴趣的内容。系统还引入CES机制和多目标建模，优化用户参与度和推荐效果。大模型的应用提升了内容理解和推理能力，突破了传统推荐系统的局限，为用户提供更精准、多样化的内容推荐。

原创 2025-05-10 12:57:10 · 817 阅读 · 0 评论
大模型训练，DP/PP/TP/SP/EP到底怎么选？

当前春招和实习已开启，但职场环境发生了变化，求职者增多，职位减少且要求更高。为帮助求职者应对技术面试，我们整理并发布了大厂面试题，包括《大模型面试宝典》2025版。此外，文章还介绍了大模型训练的并行策略，包括数据并行（DP）、流水线并行（PP）、张量并行（TP）、序列并行（SP）和专家并行（EP），并分析了它们的通信量及编排方式。这些策略有助于优化大模型的训练效率，尤其是在分布式基础设施上。

原创 2025-05-10 12:53:22 · 818 阅读 · 0 评论
一步步教会你微调 DeepSeek R1

为了应对 DeepSeek R1 的发布，OpenAI 推出了两个强大的工具：一个更先进的推理模型：o3，以及 Operator AI Agent，依托全新的计算机使用 Agent（CUA，Computer Use Agent）模型，能够自主浏览网站并执行任务。这些模型的参数范围从 1.5B 到 70B 不等，但保留了强大的推理能力，其中 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini。我选择了两块 T4 GPU，但是看起来最终我只用了一块。

转载 2025-04-12 12:48:33 · 1146 阅读 · 0 评论
【大模型面经】Diffusion及AIGC面试高频问题总结

最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。

原创 2025-04-12 11:53:19 · 666 阅读 · 0 评论
太不容易了！！！在4台服务器成功部署了满血版 DeepSeek-R1-671B 大模型

一步一个坑，最近我成功在4台服务器部署满血版 DeepSeek-R1-671B，如果你也有相关兴趣，大家可相互一起学习交流。以下有部署成功后的相关内容展示。

原创 2025-03-30 07:57:50 · 362 阅读 · 0 评论
一文讲透 Transformer 注意力机制：缩放、批量、多头、掩码、交叉、跨头

Transformer 属于算法必考题。今天这篇文章讲透Transformer ：缩放、批量、多头、掩码、交叉、跨头，对刚想了解算法或面试的朋友非常友好。文章安排如下：基础缩放Attention批量Attention多头Attention掩码Attention交叉Attention跨头维度向量化最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。

原创 2025-03-30 07:39:02 · 1038 阅读 · 0 评论
【内推】vivo影像算法研究部招聘图像/视频算法研究员/预研型实习生

最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。主要负责研发和优化vivo手机的影像算法及芯片化，聚焦于对照片的画质、影调、色彩、光照和虚化等关键属性的全方位提升，该部门的工作重点包括图像/视频处理、图像感知、图像/视频增强、图像/视频/3D内容生成等方面的技术研究和开发。

原创 2025-03-29 19:08:04 · 490 阅读 · 0 评论
图解混合专家模型（MoE）

混合专家（MoE）是一种使用许多不同的子模型（或“专家”）来提高LLMs质量的技术。两个主要组件定义了 MoE：专家 - 每个 FFNN 层现在都有一个“专家”集合，其中可以选择子集。这些“专家”通常是 FFNN 本身。路由器或网关网络 - 确定哪些令牌发送给哪些专家。在具有 MoE 的LLM的每一层中，我们发现（某种程度上是专业的）专家：“专家”并非在特定领域如“心理学”或“生物学”中专业化。最多，它只是词法方面的专家：更具体地说，他们的专长在于处理特定语境中的特定标记。

原创 2025-03-29 18:44:04 · 709 阅读 · 0 评论
【面经】面了阿里淘天大模型算法岗，整体氛围比较轻松

整体来说面试体验比较好，问的问题都不难，面试官也都不错，遇到一些卡壳的地方也会进行引导讨论，面试氛围很轻松。三面应该是加面的大老板面，从交流可以看出来对整个大模型这块的理解还是很深刻的，收获不小。

原创 2025-03-22 17:40:54 · 754 阅读 · 0 评论
DeepSeek等大模型 WebUI 究竟该如何抉择？Cherry Studio、Chatbox、AnythingLLM。。。

在2025年的AI工具市场中，Chatbox和各有千秋。选择工具的本质是“需求先行”。无论您是技术极客、企业决策者，还是效率追求者，总有一款工具能成为您的“数字外挂”。立即行动，用对工具，让AI真正为您赋能！

原创 2025-03-22 17:36:26 · 1047 阅读 · 0 评论
图解 DeepSeek-R1

为了收集此类数据，我们探索了几种方法：使用具有长 CoT 的少样本提示作为示例，直接提示模型生成带有反射和验证的详细答案，以可读格式收集 DeepSeek-R1-Zero 输出，并通过人工注释者的后处理来完善结果。前三个是密集的，但其余的是混合专家层（请参阅我的合著者 Maarten 的精彩入门指南：混合专家（MoE）的可视化指南，https://substack.com/home/post/p-148217245）。它的训练直接从一个预训练的基础模型开始，经过 RL 训练过程（没有 SFT 步骤）。

原创 2025-03-09 07:55:00 · 1286 阅读 · 0 评论
基于DeepSeek，构建个人本地RAG知识库

经过一段使用DeepSeek后，感觉使用体验和ChatGPT基本差不多，回答问题的质量略有提升，因DeepSeek已开源，它的模型、模型参数权重从网上都可以下载到，所以可以基于开源的模型，在本地构建一个自己的知识库，小编这里使用的是蒸馏后的模型参数权重RAG （Retrieval-Augmented Generation）检索增强生成，是一种通过整合外部知识库来增强大模型（LLM）回答问题质量的模式。最简单的理解，可以认为是给大模型外挂了一个知识库。

原创 2025-03-09 07:44:53 · 1054 阅读 · 0 评论
百度文心一言团队大模型Agent面经分享

整体下来感觉面试官都是非常专业的，面试深度和广度都很可以，三场面试层层递进。面试官人也不错，如果比较满意的话也愿意多花时间来聊，而不是严格的卡一个小时这种完任务式的面试。

原创 2025-03-09 07:36:19 · 1333 阅读 · 0 评论
万字长文解构 DeepSeek V1/V2/V3/R1进化史

Answer前习惯于最后一次。

原创 2025-03-03 23:06:29 · 911 阅读 · 0 评论
面了deepseek 大模型算法岗，被狠狠拷打了。。。

最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。

原创 2025-03-03 23:01:52 · 463 阅读 · 0 评论
大模型面试官提问：MoE 什么？为什么这么多大语言模型都在使用它？

在探索最新的大语言模型（LLM）时，“MoE”这一术语频繁出现在各种标题之中。最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。

原创 2025-02-28 14:36:25 · 932 阅读 · 0 评论
DeepSeek 本地部署指南（基于 vLLM）

通过以上步骤，你已成功在本地部署了 DeepSeek 模型，并能够通过 vLLM 进行推理。如果在部署过程中遇到问题，请参考 vLLM 官方文档或在相关社区寻求帮助。祝你使用愉快！

原创 2025-02-28 14:09:28 · 3236 阅读 · 0 评论
大模型 RLHF 夺命连环17问，答错直接挂！

新年继续收到学员好消息！恭喜学员拿下科大讯飞，杭州某自动驾驶公司及东京某公司大模型岗offer！新的一年，祝大家工作顺利，蛇年大吉，找工作的学员都化身offer收割机，加油！最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-02-23 08:56:43 · 757 阅读 · 0 评论
大模型面试官提问：PPO & GRPO原理是什么？

通过这个小学考试的比喻，我们逐步从。

原创 2025-02-23 08:13:57 · 773 阅读 · 0 评论
字节大模型面试，还是挺有压迫感的

最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-02-19 22:50:06 · 626 阅读 · 0 评论
找实习碰到了 DeepSeek 大模型面试题

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-02-19 22:47:12 · 595 阅读 · 0 评论
自动化办公！本地部署DeepSeek接入WPS教程全搞定！

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-02-16 21:49:43 · 2187 阅读 · 0 评论
解锁 DeepSeek：50 案例教你玩转 7 大场景，附全套提示词秘籍

大家好，今天给大家分享的是：DeepSeek 7大场景+50大案例+全套提示词，从入门到精通干货，共计：112页。该文档围绕国产AI工具DeepSeek展开，全面介绍其功能、应用场景、提示词使用及进阶玩法等内容。DeepSeek是一款功能强大的国产免费AI工具，采用独特算法和模型架构，在回应速度和内容质量上表现出色，具有智能问答、内容生成、数据分析、任务管理和学习助手等核心功能，能解决多领域问题。在使用方面，需正确掌握提示词，避免常见错误，如笼统、过度限制等。

原创 2025-02-16 21:43:45 · 257 阅读 · 0 评论
万字长文为你深度解析DeepSeek

DeepSeek-V3 是一个在2048 个 NVIDIA H800 GPU 的集群上进行训练得到的超大型MoE架构的大语言模型。它延续了Deepseek MoE、Deepseek V2等模型的一系列创新，进一步提出了MTP，并优化了训练的效率，取得比较好效果的同时，提高了训练的效率，节约了成本。表5、表6展示了 DeepSeek V3 为人瞩目的训练成本以及开源基准评测效果。表5. DeepSeek V3 训练成本表6. DeepSeek V3 与其他 Chat 模型开源基准评测效果。

原创 2025-02-15 20:58:16 · 899 阅读 · 0 评论
基于 DeepSeek-R1 的个人AI知识库，全本地部署，可断网使用

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-02-15 20:52:13 · 1251 阅读 · 0 评论
基于 Ollama+Docker+openwebul，部署DeepSeek R1保姆级教程来了

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-02-09 22:01:48 · 1373 阅读 · 0 评论
清华大学DeepSeek使用手册，长达104页！（附PPT下载）

从避免AI幻觉的小窍门，到设计出色提示语的秘籍，每一页都凝聚着干货知识，让用户能够直接上手操作，快速掌握DeepSeek的精髓。这份文档不仅为用户提供了关于DeepSeek的全面知识，还体现了中国科技在人工智能领域的快速发展。《DeepSeek：从入门到精通》以通俗易懂的方式，全面介绍了DeepSeek的使用方法，为用户提供了极具价值的指导。这份文档内容丰富，篇幅长达104页，涵盖了众多实用技巧。

原创 2025-02-09 21:52:52 · 18825 阅读 · 0 评论
一文搞懂DeepSeek - 多头注意力（MHA）和多头潜在注意力（MLA）

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-02-05 21:53:38 · 3258 阅读 · 0 评论
2025版《大模型面试宝典》保姆级教程来了

大家好我是费老师，最近国产大模型新版本凭借其优秀的模型推理能力，讨论度非常之高🔥，且其官网提供的相关大模型API接口服务价格一直走的“价格屠夫”路线，性价比很高，本期文章中，就将为大家举例，如何在vscode中，基于开源AI编程辅助插件Continue，配置基于Deepseek的API接口，实现常用的AI编程辅助等功能。

原创 2025-02-05 21:47:30 · 1525 阅读 · 0 评论
DeepSeek 接入个人知识库，可以封神了！

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-02-04 16:00:29 · 1875 阅读 · 0 评论
50张图，直观理解混合专家(MoE)大模型

混合专家（MoE）是一种利用多个不同的子模型（或称为“专家”）来提升LLM质量的技术。MoE的两个主要组成部分是：专家：每个前馈神经网络（FFNN）层现在都有一组“专家”，可以选择其中的一部分。这些“专家”通常也是FFNN。路由或门控网络：决定哪些词元发送到哪些专家。在每个具有MoE的模型层中，我们会找到（相对专业化的）专家：需要注意的是，“专家”并不专注于特定领域，如“心理学”或“生物学”。专家在学习过程中最多只能掌握关于单词层面的句法信息：更具体地说，专家的专长是在特定上下文中处理特定词元。

原创 2025-02-03 22:59:12 · 1387 阅读 · 0 评论
Transformer 全面解析

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-02-03 22:56:43 · 977 阅读 · 0 评论
一文讲透大模型核心概念和技术细节

随着模型和语料的扩大，大型语言模型展示了从少量上下文示例中学习的能力，这被称为上下文增强学习（ICL）。利用ICL，大型语言模型可以执行各种复杂任务，例如解决数学推理问题。ICL的基本理念是从类比中汲取经验。ICL与监督学习有一个显著的区别，就是它不需要进行参数更新，而是直接在预训练的语言模型上进行预测。ICL作为一种新的范式，具有很多天然的优势：由于演示是用自然语言编写的，因此提供了一个可解释的接口来与LLM通信。这种方法通过改变演示和模板，使得人类知识更容易融入LLM的上下文学习中。

原创 2025-01-26 20:44:37 · 999 阅读 · 0 评论
字节豆包算法岗Offer ,薪资待遇超预期

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-01-26 20:38:29 · 1002 阅读 · 0 评论
百度多模态大模型技术进展与产业应用实践

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-01-10 15:56:07 · 1584 阅读 · 0 评论
京东算法岗一面面经

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2025-01-10 15:53:06 · 1298 阅读 · 0 评论
本地部署 Qwen2.5-Coder 大模型，打造个性化代码辅助助手

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2024-12-29 18:16:44 · 1184 阅读 · 0 评论
阿里通义发布QVQ-72B，带你跑通最强视觉推理大模型

最近秋招发放Offer已高一段落。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

原创 2024-12-29 07:54:50 · 1278 阅读 · 0 评论

算法学习笔记

作者: 大模型与计算机视觉

北京内推 | 微软AI DKI团队招聘大语言模型方向研究实习生

大模型面试必问知识：Transformer、BERT、GPT

行业落地分享：大模型在小红书推荐的应用

大模型训练，DP/PP/TP/SP/EP到底怎么选？

一步步教会你微调 DeepSeek R1

【大模型面经】Diffusion及AIGC面试高频问题总结

太不容易了！！！在4台服务器成功部署了满血版 DeepSeek-R1-671B 大模型

一文讲透 Transformer 注意力机制：缩放、批量、多头、掩码、交叉、跨头

【内推】vivo影像算法研究部招聘图像/视频算法研究员/预研型实习生

图解混合专家模型（MoE）

【面经】面了阿里淘天大模型算法岗，整体氛围比较轻松

DeepSeek等大模型 WebUI 究竟该如何抉择？Cherry Studio、Chatbox、AnythingLLM。。。

图解 DeepSeek-R1

基于DeepSeek，构建个人本地RAG知识库

百度文心一言团队大模型Agent面经分享

万字长文解构 DeepSeek V1/V2/V3/R1进化史

面了deepseek 大模型算法岗，被狠狠拷打了。。。

大模型面试官提问：MoE 什么？为什么这么多大语言模型都在使用它？

DeepSeek 本地部署指南（基于 vLLM）

大模型 RLHF 夺命连环17问，答错直接挂！

大模型面试官提问：PPO & GRPO原理是什么？

字节大模型面试，还是挺有压迫感的

找实习碰到了 DeepSeek 大模型面试题

自动化办公！本地部署DeepSeek接入WPS教程全搞定！

解锁 DeepSeek：50 案例教你玩转 7 大场景，附全套提示词秘籍

万字长文为你深度解析DeepSeek

基于 DeepSeek-R1 的个人AI知识库，全本地部署，可断网使用

基于 Ollama+Docker+openwebul，部署DeepSeek R1保姆级教程来了

清华大学DeepSeek使用手册，长达104页！（附PPT下载）

一文搞懂DeepSeek - 多头注意力（MHA）和多头潜在注意力（MLA）

2025版《大模型面试宝典》保姆级教程来了

DeepSeek 接入个人知识库，可以封神了！

50张图，直观理解混合专家(MoE)大模型

Transformer 全面解析

一文讲透大模型核心概念和技术细节

字节豆包算法岗Offer ,薪资待遇超预期

百度多模态大模型技术进展与产业应用实践

京东算法岗一面面经

本地部署 Qwen2.5-Coder 大模型，打造个性化代码辅助助手

阿里通义发布QVQ-72B，带你跑通最强视觉推理大模型