机器学习社区-CSDN博客

原创《大模型面试宝典》(2025版)来了

大部分人可能想不到，2025年春节假期，大模型圈子竟然会这么热闹。DeepSeek 正式开源了 DeepSeek-R1，在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。这位来自「神秘东方力量」DeepSeek 算是彻底破圈，火遍大江南北，火到人尽皆知。经历了过去两年的狂飙，国内大模型已经在多个垂直赛道中强势崛起，跨过了护城河，已发布的模型超过200个，相关应用产品不计其数。

2025-02-04 16:15:53 1350

2022 年下半年以来，文本生成图像快速出圈，多款应用持续火爆。国外文生图代表：Midjourney、Stable Diffusion、OpenAI 的 DALL-E：海外模型SD开源，进一步促进了国内大厂的研究热情和应用落地：随着多模态技术迭代，图像生成、视频生成、3D生成、音频生成等 AIGC 应用加速落地，相关岗位需求特别旺盛。节前，我们星球群组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-05-20 23:17:28 2510

原创《机器学习算法面试宝典》重磅发布！

我们经常会组织场算法岗技术&面试讨论会，会邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。基于讨论和经验总结，历时半年的梳理和修改，《机器学习算法面试宝典》（以下简称《算法面试宝典》）终于可以跟大家见面了。

2024-05-05 22:38:03 1244

原创重磅来袭！《大模型面试宝典》(2024版) 发布！

2022 年11月底，OpenAI 正式推出 ChatGPT ，不到两个月的时间，月活用户就突破1亿，成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个，大模型的出现彻底改变了我们的生活和学习方式。现在只要你想从事 AI 相关的岗位，无论是计算机视觉（CV）、自然语言处理（NLP）、搜广推、风控等，大模型相关话题都是绕不开的。节前，我们星球群组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-03-23 10:06:20 2488

原创重磅来袭！《大模型实战宝典》(2024版) 发布！

2024 年刚开年，OpenAI 推出的文生视频工具 Sora 再次风靡全球，成为 OpenAI 继 ChatGPT 之后新的生成式 AI 标杆。关于大模型的话题不断涌现，令人应接不暇，截至到目前，国内大模型已发布数量超过200个。去年我们写了一本《大模型实战宝典》（以下简称《实战宝典》），有很多小伙伴订阅，反馈内容通俗易懂，有基础知识做铺垫，收获了很多。今年年初开始，就开始计划内容大版本升级，前期也做了很多准备工作。

2024-03-23 10:04:23 1131

原创比 PyTorch 的官方文档还香啊，吃透PyTorch中文版来了

PyTorch 作为学生以及研究人员首选的热门框架之一，拥有易用性等优势。具备简约性、通用性的资料才是好资料。如果说 PyTorch 的官方文档的掌握难度是5级，那它的难度大概为2级，难度虽然低了，但知识点一个却没有少。教程里有什么？教程根据官方提供的文档，尽量完整的进行了还原。包括简单的PyTorch建模流程，核心概念，层次结构，低、中、高阶API等等。部分内容如下，建模数据准备：模型范例：低阶API示范：可视化人工绘图：教程目录上下滑动即可查看完整目录▼一、Pytorch的建

2022-01-04 21:48:33 3799 3

原创我最喜欢的10个顶级数据科学资源，kaggle、TDS、arXiv......

当我声明数据科学正在成为最受欢迎的工作领域之一时，我想你不会与我争辩，特别是考虑到《哈佛商业评论》将 "数据科学家 "评为21世纪最性感的工作。在这个领域，我们已经走过了很长的路，从数据科学和机器学习等术语还不为人所知，到一切都聚集在统计学的保护伞下的时代。然而，我们还远远没有走到终点。这也可能是数据科学的一个分界点——这个领域发展得非常迅速，甚至很难跟上所有新的算法、技术和方法。因此，在数据科学领域工作，与软件工程类似，

2021-12-17 16:08:34 1032

原创画出漂亮的神经网络图，神经网络可视化工具大汇总

分享几款画神经网络图神器，喜欢欢迎点赞、关注、收藏。1. draw_convnet一个用于画卷积神经网络的Python脚本https://github.com/gwding/draw_convnet2. NNSVGhttp://alexlenail.me/NN-SVG/LeNet.html3. PlotNeuralNethttps://github.com/HarisIqbal88/PlotNeuralNet使用latex 来展示神经网络4. Tensorboardhttps:

2021-12-16 20:05:34 3838

原创 PyCaret时序模块更新：支持30+时序模型

PyCaret是一个开源、低代码的Python机器学习库，可自动执行机器学习工作流。它是一种端到端的机器学习和模型管理工具，可以以指数方式加快实验周期并提高您的工作效率。与其他开源机器学习库相比，PyCaret是一个替代的低代码库，可用于仅用几行代码替换数百行代码。这使得实验速度和效率呈指数级增长。PyCaret本质上是围绕多个机器学习库和框架（例如 scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Optuna、Hyperopt、Ray 等的Python包装器。

2021-12-15 22:41:13 1633 3

原创何恺明一作论文 MAE 已有人复现（Pytorch版）

何恺明大佬新作一发出来，知乎上就有众多大佬在讨论除了大家对何恺明大佬的工作的肯定外（当然部分认为novelty不足），也引发对未来CV工作的思考，是否会引领类似去年 transformer那样子的热潮？亦或是证明ViT的各种改变可能都是没有意义的。这次何恺明大佬又把握了技术发展的趋势，NLP和CV互相融合的工作看来会是大势所趋。论文链接：https://arxiv.org/pdf/2111.06377.pdf复现代码：https://github.com/pengzhiliang/MAE-py

2021-12-01 10:16:58 1912 1

原创何恺明MAE大火之后，想梳理下视觉Transformer？这篇综述帮你梳理了100多个

在这篇论文中，Yang Liu 等几位研究者全面回顾了用于三个基本 CV 任务（分类、检测和分割）的 100 多个视觉 Transfomer。这段时间，计算机视觉圈有点热闹。先是何恺明等人用简单的掩蔽自编码器MAE证明了 Transformer 扩展到 CV 大模型的光明前景；紧接着，字节跳动又推出了部分指标超过 MAE 的新方法iBOT，将十几项视觉任务的 SOTA 又往前推了一步。这些进展给该领域的研究者带来了很大的鼓舞。在这样一个节点，我们有必要梳理一下 CV 领域 Transformer 模.

2021-11-26 13:06:21 988

原创还在纠结CNN还是Transformer？清华发表一篇survey：全连接层才是终极答案

随着神经网络的发展，各种各样的模型都被研究出来，卷积、Transformer也是计算机视觉中国常用的模型，而最近清华大学发表了一篇survey，研究结果或许表明全连接层才是最适合视觉的模型，并将迎来新的AI范式转换！多层感知机（MLP）或全连接（FC）网络是历史上第一个神经网络结构，由多层线性层和非线性激活叠加而成，但受到当时硬件计算能力和数据集大小的限制，这颗明珠被埋没了数十年。这场人工智能变革也带来了一次AI范式的转换，从手工抽取特征到CNN自动抽取局部特征，基于深度学习的计算机视觉的就是利用多层

2021-11-24 14:22:40 2786

原创可定制算法和环境，这个开源强化学习框架火了

强化学习框架怎么选？不如自己定制一个。强化学习（reinforcement learning，RL）是近年来最受关注的人工智能研究方向之一，在机器人、游戏等领域应用甚广。现有的强化学习框架往往无法支持高效、定制化的训练场景的问题。近日，GitHub 上一个名为 JORLDY 的开源、可定制强化学习（RL）框架引发关注。项目地址：https://github.com/kakaoenterprise/JORLDYJORLDY 的主要优点是提供多种分布式强化学习算法，并且易于定制。由于 JORLDY 目

2021-11-20 15:09:43 3939

原创我用unsloth将Qwen3大模型微调成了一个脑筋急转弯专家

参考： https://help.aliyun.com/zh/egs/user-guide/install-a-gpu-driver-on-a-gpu-accelerated-compute-optimized-linux-instance。微调会比较耗时，主要取决你的硬件配置以及脚本中你设定的max_steps参数，这个数值越大，它训练的时间就越久。数据集对于微调来说，是很重要的一环，数据集质量的好坏直接决定了你微调的效果。此次微调我用的是Qwen3-4B的版本，相对来说参数量不大，而且效果比较好。

2025-05-24 16:16:26 763

原创北京内推 | 京东智能体平台和应用算法团队招聘大模型算法工程师/实习生

我们是技术驱动的团队，工作很有挑战，自主权也可大，一个项目可以从计划到数据分析、算法设计、工程落地都是自己独立完成，能够有很多成长的机会，但你有任何的搞不定的问题，都可以寻求到帮助。团队技术氛围浓厚，近几年在ACL、EMNLP、AAAI、SIGIR、CIKM、KDD等国际顶级会议发表多篇学术论文，且能落地到京东产品中以解决用户真实问题。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。关注SIGIR、CIKM、WWW、ACL、EMNLP 等国际会议论文加分；

2025-05-24 14:40:44 380

原创通义千问Qwen3，最全使用指南

为了增加数学和代码数据的数量，我们利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据，合成了包括教科书、问答对以及代码片段等多种形式的数据。经过后训练的模型，例如 Qwen3-30B-A3B，以及它们的预训练基座模型（如 Qwen3-30B-A3B-Base），现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。我们优化了 Qwen3 模型的 Agent 和代码能力，同时也加强了对 MCP 的支持。

2025-05-10 14:37:02 1074

原创大模型多机多卡训练经验总结

又有两位训练营同学斩获大模型offer！一个是40k某军实验室offer，另一个是第四范式～恭喜两位同学成功上岸！最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。网上关于 LLM 多机多卡训练教程好少，好多还是拿 torch.distributed.launch 来做，殊不知早就改用 torchrun 了。

2025-05-10 14:31:33 1140

原创面试了智谱大模型，没有想的那么难

自我介绍环节，要清晰地阐述了个人基本信息、教育背景、工作经历和技能特长，展示了自信和沟通能力。

2025-04-12 12:02:35 473

原创深度体验了Cursor半年：真的是代码开发小能手

然后我们可以先使用Cursor的Ask模式先让AI给出不同的解决方案以及优劣，“阿步思考法”告诉我们方案都是“各种资源”的权衡，我们不可能有阿步一样无限的资源，所以权衡的工作一定是人来完成，而不是AI，AI的优势是他懂得多懂的广，但是他很难了解到一个任务具体的背景，这些隐形知识也很难表述出来，而人去权衡恰恰补充了这部分知识。在完成任务中，AI可以帮助你更好的理解需求并自动处理底层复杂性，让你聚焦于创造性调整，既避免因任务太简单而厌倦，又防止因难度过高而焦虑，给进入心流状态，变的更加轻松。

2025-04-12 08:59:18 1019

原创这篇GPU学习笔记，详细整理了其工作原理、编程模型和架构设计

在这里作者要做一个简单的说明，现代的GPU架构，先不论不同厂家，仅NVIDIA一家就有数十年的架构迭代史，其中涉及的各种优化改进，限于篇幅，本文不可能一一介绍。但是，要想完整了解整个GPU架构的发展，作者认为可以分两步走：以NVIDIA为例，就是“从0到Fermi“，和”从Fermi到Blackwell“。Fermi架构是现代通用GPU架构的基石，其中许多核心设计思想传承至今，而此后直到作者撰文的2025年最新的Blackwell架构，都可以看做在基础上的一路迭代。

2025-04-12 08:53:53 862

原创一文带你梳理Large Language Model发展历程

GPT2的核心是更多的训练数据、更大的模型尺寸；InstructGPT的核心是如何让GPT生成的回答更符合人类的需求，核心是引入了强化学习机制，基于强化学习的思想去优化无监督预训练模型产出的文本，让其更符合人类的需求。Transformer的出现，以及其衍生出来的GPT和BERT，开启了深度学习语言模型的新时代，也是大模型的基础。N-gram这种统计模型的问题在于，N太大时数据很稀疏，N太小能考虑的上下文信息就比较少，虽然有一些平滑方法能够提升N-gram在稀疏数据下的表现，但是上限仍然比较低。

2025-03-30 10:34:12 1055

原创北京/杭州/上海内推 | 阿里通义实验室招聘大模型方向研究型实习生

阿里巴巴通义实验室招聘研究型实习生，面向下一代RAG技术如Deep Research相关进行基础研究，团队近几年在顶级会议ACL/EMNLP/NAACL/ICLR等发表50+篇论文，登顶多项榜单，在SemEval 22/23连续两次获得最佳论文奖，并在ACL 2023/NLPCC 2024分别获得杰出论文奖。大模型研究型实习生坐标：北京/杭州/上海岗位要求1. 需有顶级会议论文发表；2. 对大模型研究有热情；3. 基础优秀者无需大模型/RAG方向实际经验。团队研究方向1. 强化学习。

2025-03-30 10:31:09 292

原创面试月之暗面大模型面试题：Transformer和MoE的差别在哪里？

专家混合（MoE）是一种流行的架构，比如火爆天的 DeepSeek V3 和 R1 就是这类模型。MoE 使用 experts，它们是前馈网络，但与 Transformer 中的网络相比更小。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。如果某个专家达到上限，输入的 token 就会被传递给下一个最合适的专家。某些专家可能会比其他专家处理更多的 token，导致部分专家训练不足。在路由器的前馈输出中添加噪声，使其他专家的 logits 更高。

2025-03-29 16:09:20 574

原创大模型初学者RAG学习路线指南

人工智能（AI）时代的到来为技术人员提供了丰富的学习和发展机会。对于没有算法背景的技术同学来说，迎接这种新兴机遇与挑战并做好应对准备和知识储备是非常重要的。结合笔者这一段对于大模型和AI技术的一些学习以及对基于AI改造的诸多实际应用场景的了解。于是就写了这篇文章。另外，本篇文章不会用过多的篇幅来讲算法基础的内容，而把重点放在AI应用的核心技术概念的理解上。

2025-03-29 15:51:58 872

原创一文详解八款主流大模型推理框架

当前大模型推理平台/引擎生态各具特色，从企业级高并发服务到本地轻量化部署，从国产硬件优化到前沿编译技术探索，每种方案都有其独到优势。选择合适的推理方案不仅需考虑技术指标，更要结合业务场景、硬件资源与未来扩展规划。未来，随着技术的不断进步和产业协作的加深，大模型推理生态将呈现出更加多元、灵活和高效的局面，为各领域在激烈竞争中抢占先机提供强大支撑。

2025-03-22 14:46:28 1215

原创揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

此外，正如之前假设的那样，Qwen2.5 模型很可能是在拼接的问答文本上进行预训练的，因此他们同样从 NuminaMath1.5 中准备了一个拼接的数据集，并用 1e-5 的学习率对 Llama-3.2-3B-FineMath 进行了 2 轮持续预训练。图 7 的右图比较了使用 GRPO 和 Dr. GRPO 训练的模型性能和回答长度，可以清楚地看到，GRPO 可以产生「双重增加」现象，可能导致误解，即在数学预训练后，长思维链（long-CoT）也能在 Llama 模型上出现。（实验设置详见表 3）

2025-03-22 13:00:34 621

原创 QwQ-32B 开源！本地部署+微调教程来了

今天，通义千问开源了推理模型QwQ-32BQwQ-32B 在一系列基准测试中进行了评估，测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

2025-03-09 13:47:52 2857 2

原创 3 步搞定 DeepSeek 本地部署，小白也能轻松逆袭！

今天给大家带来一个超实用的干货分享，那就是如何在短短 10 分钟内完成 DeepSeek 的本地部署！是不是听起来就很心动？别急，跟着我一步步来，小白也能轻松逆袭，成为 AI 领域的弄潮儿！DeepSeek 的服务器最近总是被恶意攻击，还时不时宕机，国内用户热情又高，服务器负担一重，大家用起来就卡卡的，体验感直线下降。所以，本地部署就成了咱们的“救星”，不仅能摆脱这些烦恼，还能随时随地享受畅快的 AI 体验，简直不要太爽！最近这一两周不少公司已开启春招。

2025-03-09 12:06:57 686

原创字节大模型算法岗面试压迫感满满，面完感觉口干舌燥....

最近这一两周不少公司已开启春招。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。字节面试整体感觉，还是挺有压迫感的，面试完感觉口干舌燥的，在面试效率方面是没得说的，非常高。

2025-03-03 23:31:07 567 1

原创大模型面试官提问：PPO & GRPO原理与区别

通过这个小学考试的比喻，我们逐步从只看绝对分数的朴素思路，演化到 PPO 的完整机制（Critic、Advantage、Clip、Reference Model），再到GRPO的创新思路（用一组输出的平均得分当基线，省去价值函数的繁琐）。以下几点值得再次强调：Critic 的意义：它为每个状态或阶段提供“合理预期”，大幅降低了训练方差；Clip & min 机制：约束策略更新幅度，避免一次考试“爆发”带来的巨幅震荡；

2025-03-03 22:49:47 1119

原创使用A10单卡24G复现DeepSeek R1强化学习过程

本文描述DeepSeek的三个模型的学习过程，其中DeepSeek-R1-Zero模型所涉及的强化学习算法，是DeepSeek最核心的部分之一会重点展示。最近这一两周不少公司已开启春招。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

2025-02-28 14:23:20 1222

原创让DeepSeek威力加倍！教你本地搭建知识库

对于本地部署的DeepSeek，怎样让它的答案更高效？此时就要用到知识库。本文使用的方案是Ollama+Docker+Dify。注意：首先请确保你已经安装了Git和Python，并保持“网络畅通”。最近这一两周不少公司已开启春招。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

2025-02-28 14:06:13 1265

原创一文搞懂 DeepSeek - DeepSeek-R1 训练过程

最近这一两周不少公司已开启春招。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

2025-02-23 08:42:38 1635

原创 Deepseek本地部署详细指南！从 Ollama 到个人知识库应用

mbp pro。

2025-02-23 08:36:35 2094

原创细致扒一下DeepSeek-R1论文到底讲了些什么

作者：answer论文原文链接: https://arxiv.org/pdf/2501.12948作者原文链接：https://zhuanlan.zhihu.com/p/20530204146最近这一两周不少公司已开启春招。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

2025-02-23 08:33:27 919

原创 DeepSeek 模型综述：V1 V2 V3 R1-Zero

最近这一两周不少公司已开启春招。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

2025-02-19 21:55:42 1110

原创面了美团大模型算法岗，被疯狂拷打。。。

最近这一两周不少公司已开启春招。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。大家好，最近面了美团大模型算法岗(日常实习)，bg一般，之前有一段还可以的实习。面试官挺好的，让人觉得体验感非常好。面试题都能说一点，但是感觉语言表达能力稀烂，感觉凉了。面试题分享，欢迎交流学习。

2025-02-19 21:51:52 637

原创 DeepSeek-R1 + Cherry Studio 本地部署打造个人 AI 知识库

ChatGPT 爆火的时候，我心里就燃起了一个想法：打造一个专属于自己的AI知识库，它就像我的第二大脑一样，能记住我生活里的点点滴滴。我随口一问“去年5月我做了什么”，它不仅能精准找到记录，还能帮我回忆起那些差点被遗忘的细节！但这么隐私的东西，用在线服务肯定不放心，必须得在自己电脑上运行才行。现在，机会来啦！有了能全本地部署的deepseek-r1和bge-m3，再加上界面超优雅的Cherry Studio，这个梦想终于能照进现实。

2025-02-16 21:35:57 2142

原创字节大模型面试，还是挺有压迫感的

最近这一两周不少公司已开启春招。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。球友分享：字节面试整体感觉，还是挺有压迫感的，面试完感觉口干舌燥的，在面试效率方面是没得说的，非常高。

2025-02-16 21:30:42 1092

原创带你一步步搭建 DeepSeek + Ollama + Dify，快速部署私有化 AI 助手。

生成答复后意味着 AI 应用的搭建已完成，你可以在日志内查看 LLM 的推理过程。在实际应用中，当你上传内部文档或专业资料后， Dify 的知识库功能可以承担起 RAG 作用，帮助 LLM 基于专业资料提供更有针对性的解答，有效弥补模型训练数据的不足。通过检索相关知识，为模型提供必要的上下文信息，将这些信息融入内容生成过程中，从而提升回答的准确性和专业度。详细说明请参考以下内容。仅需一条命令即可完成安装大模型和部署，LLM 的所有使用数据均会保存在本地机器内，提供全方面的数据隐私和安全性，满足合规要求。

2025-02-09 22:27:46 2698

空空如也

空空如也