- 博客(303)
- 收藏
- 关注

原创 《大模型面试宝典》(2025版) 正式发布!
大部分人可能想不到,2025年春节假期,大模型圈子竟然会这么热闹。DeepSeek 正式开源了 DeepSeek-R1,在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。这位来自「神秘东方力量」DeepSeek 算是彻底破圈,火遍大江南北,火到人尽皆知。经历了过去两年的狂飙,国内大模型已经在多个垂直赛道中强势崛起,跨过了护城河,已发布的模型超过200个,相关应用产品不计其数。
2025-02-04 15:34:12
1114

原创 重磅消息!《AIGC 面试宝典》(2024版) 正式发布!
2022 年下半年以来,文本生成图像快速出圈,多款应用持续火爆。国外文生图代表:Midjourney、Stable Diffusion、OpenAI 的 DALL-E:海外模型SD开源,进一步促进了国内大厂的研究热情和应用落地:随着多模态技术迭代,图像生成、视频生成、3D生成、音频生成等 AIGC 应用加速落地,相关岗位需求特别旺盛。节前,我们星球群组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。
2024-05-20 09:09:27
2401

原创 重磅消息!《大模型实战宝典》(2024版) 正式发布!
2024 年刚开年,OpenAI 推出的文生视频工具 Sora 再次风靡全球,成为 OpenAI 继 ChatGPT 之后新的生成式 AI 标杆。关于大模型的话题不断涌现,令人应接不暇,截至到目前,国内大模型已发布数量超过200个。去年我们写了一本《大模型实战宝典》(以下简称《实战宝典》),有很多小伙伴订阅,反馈内容通俗易懂,有基础知识做铺垫,收获了很多。今年年初开始,就开始计划内容大版本升级,前期也做了很多准备工作。
2024-03-23 09:04:57
1349

原创 重磅消息!《大模型面试宝典》(2024版) 正式发布!
2022 年11月底,OpenAI 正式推出 ChatGPT ,不到两个月的时间,月活用户就突破1亿,成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个,大模型的出现彻底改变了我们的生活和学习方式。现在只要你想从事 AI 相关的岗位,无论是计算机视觉(CV)、自然语言处理(NLP)、搜广推、风控等,大模型相关话题都是绕不开的。节前,我们星球群组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。
2024-03-23 09:01:30
3294

原创 熬了一个通宵,把国内外的大模型都梳理完了!
大家好,大模型越来越多了,真的有点让人眼花缭乱。为了让大家清晰地了解大模型,我熬了一个通宵把国内和国外的大模型进行了全面梳理,国内有189个,国外有20+,同时包括大模型的来源机构、来源信息和分类等。如果你想参与我们技术讨论、前沿技术分享,请加入我们。
2023-12-17 21:33:25
1204

原创 整理了上百个开源中文大语言模型,涵盖模型、应用、数据集、微调、部署、评测
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
2023-12-17 16:07:38
3809
1

原创 PyTorch 模型训练性能大揭秘:从基础到高级技巧一网打尽!
PyTorch 是一个开源的 Python 机器学习库,基于Torch,用于自然语言处理等应用程序。PyTorch既可以看作加入了GPU支持的numpy,也可以看成一个拥有自动求导功能的强大的深度神经网络,同时它也是大模型开发的首选工具。《PyTorch模型训练性能调优宝典》是解决PyTorch训练性能和效率问题的首选宝典。包括:AI/ML平台工程师、数据平台工程师、后端软件工程师、MLOps工程师、站点可靠性工程师、架构师、机器学习工程师以及任何希望掌握PyTorch性能调优技巧的专业人士。
2023-12-14 22:03:06
465

原创 LoRA 微调大模型的实践经验总结
在深度学习领域,特别是在大型语言模型(LLM)领域,模型的大小导致更新模型权重的成本非常高。假设我们有一个含有70亿参数的LLM,这些参数被表示在一个权重矩阵W中。在训练中,为了最小化损失函数,我们会计算一个ΔW矩阵,里面包含了对原始权重的更新信息。通常的权重更新过程如下:如果权重矩阵W包含70亿参数,那么权重更新矩阵ΔW也将包含70亿参数,计算ΔW将消耗巨大的计算和内存资源。为了解决这一问题,Hu等人提出了LoRA方法,该方法通过分解权重变化ΔW到一个低秩表示。
2023-12-12 22:29:09
1920

原创 基于 LangChain 的优秀项目资源库
精选的使用 LangChain 的工具和项目列表。在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业,LangChain 是从事AI应用开发的人员或多或少都会接触到的框架。LangChain是一个令人惊叹的框架,可以在极短的时间内完成LLM项目,其生态系统正在快速发展。
2023-12-09 11:13:00
1917

原创 LangChain+通义千问+AnalyticDB向量引擎保姆级教程
1.创作文字,如写故事、写公文、写邮件、写剧本、写诗歌等;2.编写代码;3.提供各类语言的翻译服务,如英语、日语、法语、西班牙语等;4.进行文本润色和文本摘要等工作;5.扮演角色进行对话;6.制作图表等。如果直接使用通义千问API从0到1来构建应用,技术成本还是相对比较高的。幸运的是,当前已经有非常优秀的框架LangChain来串联AIGC相关的各类组件,让我们轻松构建自己的应用。
2023-12-08 23:37:14
1806
原创 图解 Transformer 和 MoE 的差别
专家混合(MoE)是一种流行的架构,比如最近火爆天的 DeepSeek V3 和 R1 就是这类模型。MoE 使用 experts,它们是前馈网络,但与 Transformer 中的网络相比更小。MoE 具有更多的参数需要加载,但由于每次仅选择部分专家,因此只有一部分参数被激活。挑战 2)某些专家可能会比其他专家处理更多的 token,导致部分专家训练不足。如果某个专家达到上限,输入的 token 就会被传递给下一个最合适的专家。在路由器的前馈输出中添加噪声,使其他专家的 logits 更高。
2025-03-09 16:00:03
333
原创 字节大模型岗面试:BF16为什么比FP16更适合大模型训练?
随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~本篇文章主要对训练 LLM 以及部署应用时的精度问题进行了一些探讨和实践,读过后应该会对常用的浮点数 FP16,FP32,BF16 有一个更好的理解~
2025-03-09 14:34:48
1035
原创 美团开源首发INT8无损满血版DeepSeek R1
根据DeepSeek最新发布的技术报告,V3/R1突破性的训练成本控制主要依托FP8精度训练方案。FP8是一种典型的模型量化技术,相较于业界常用的BF16精度,FP8精度通过将数据位宽减半显著降低了单次计算开销,但也会带来一定的精度损失。在实践中,DeepSeek R1采用了混合精度训练机制有效缓解了精度损失问题。由于DeepSeek R1采用FP8精度训练,所以开源的原生权重就是FP8精度。
2025-03-09 14:20:17
1155
原创 一文详解如何使用 vLLM 在本地部署 DeepSeek 语言模型
通过以上步骤,你已成功在本地部署了 DeepSeek 模型,并能够通过 vLLM 进行推理。如果在部署过程中遇到问题,请参考 vLLM 官方文档或在相关社区寻求帮助。祝你使用愉快!
2025-03-03 22:33:44
848
原创 面了美团大模型算法,压迫感满满!!!
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。大家好,最近面了美团大模型算法岗(日常实习),bg一般,之前有一段还可以的实习。面试题分享,欢迎与我交流学习。
2025-03-03 22:27:57
598
原创 北大DeepSeek使用手册来了,清北是在“神仙打架”吗?
清华之前出了 5 份 DeepSeek 的相关教程,北大近期了也出了两个,做个整理。。。
2025-02-28 14:16:09
706
原创 基于DeepSeek,构建个人本地RAG知识库
经过一段使用DeepSeek后,感觉使用体验和ChatGPT基本差不多,回答问题的质量略有提升,因DeepSeek已开源,它的模型、模型参数权重从网上都可以下载到,所以可以基于开源的模型,在本地构建一个自己的知识库,小编这里使用的是蒸馏后的模型参数权重RAG (Retrieval-Augmented Generation)检索增强生成,是一种通过整合外部知识库来增强大模型(LLM)回答问题质量的模式。最简单的理解,可以认为是给大模型外挂了一个知识库。
2025-02-28 14:01:11
1007
原创 大模型面试官提问:多头注意力(MHA)和多头潜在注意力(MLA)
最近春招和实习已开启了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。
2025-02-23 08:49:50
908
原创 DeepSeek-R1 + RAG搭建本地知识库
最近春招和实习已开启了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。
2025-02-23 08:45:49
1615
原创 小米大模型二面,我感觉要废了
原理是类似的,embedding 矩阵的初始化方式是 xavier,方差是 1/根号 d,因此乘以根号 d,可以让 embedding 矩阵的方差是 1,从而加速模型的收敛。举个例子:假如输入的原始句子是"我爱机器学习",我们按最简单的基于字的分词,这个样本的单词长度是 6,也就是 ‘我’ ‘爱’ ‘机’ ‘器’ ‘学’ ‘习’,这六个字。所以更深层的原因是,选择根号 d,可以让输入 softmax 的分布,也就是 Q*K^T 更加趋近一个标准的正态分布,也就是均值为 0,方差为 1 的正态分布。
2025-02-19 23:12:42
835
原创 大模型 RLHF 夺命连环17问,答错直接挂!
对于目前很火的Deepseek,最近有准备LLM面试的学员问需要重点掌握哪些东西,给大家的建议是这块最重要的是deepseek v3和r1的技术报告,建议大家去精读一下,其中MLA注意力,MTP,GRPO,冷启动数据,这些是重点。作为大模型对齐人类价值观的核心技术,RLHF 不仅决定了模型的"情商",更是面试中高频出现的必考点——如何设计奖励函数?针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。使模型生成更安全、有用、符合伦理的文本。
2025-02-19 23:07:57
779
原创 一波三折,终于拿到了阿里算法岗Offer了
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。bg 211本 985硕,pub1A 一作中稿1A一作1A三作在投,一篇A会应该是通义这边的门槛。
2025-02-16 21:26:24
306
原创 绝了!Cline+DeepSeek 让 VsCode 秒变编程神器!
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。你是否幻想过,有一天编程不再是枯燥地敲击键盘,而是如同与一位智慧伙伴轻松对话,就能让创意代码如灵动音符般流淌?今天,借助Cline与DeepSeek,在VsCode中带你实现自动化编程的奇妙旅程。
2025-02-16 21:23:34
407
原创 DeepSeek R1 + 个人知识库,直接起飞!
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。DeepSeek终究还是没有扛住,越来越“难用”了:连续问到第二个问题就频繁地提醒“服务器繁忙,请稍后再试”,刷新也救不回来。我又不死心的去检查了一遍DeepSeek的状态页面,不出意外的一片大红。全网都在寻找DeepSeek官方的平替,其中是比较推荐的一个。
2025-02-12 21:41:32
1109
1
原创 DeepSeek接入Word与Excel,实现办公自动化,这也太猛了!
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。今天跟大家分享下我们如何安装插件,将 DeepSeek嵌入到Excel表格,能够直接操作Excel,大大提升办公效率。
2025-02-12 21:28:23
1009
原创 DeepSeek+AnythingLLM本地化部署,打造个人专属智能助手
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。在当今信息爆炸的时代,个人知识管理变得尤为重要。通过本地化部署 DeepSeek 模型,并结合 AnythingLLM,我们可以快速构建属于自己的 AI 驱动知识库,实现高效的信息管理和智能化的知识检索。本地化部署知识库保障我们个人资料不被外泄,结合大模型打造我们专属AI问答系统。
2025-02-09 22:43:24
1048
原创 清华大学DeepSeek使用手册,长达104页!(附PPT下载)
从避免AI幻觉的小窍门,到设计出色提示语的秘籍,每一页都凝聚着干货知识,让用户能够直接上手操作,快速掌握DeepSeek的精髓。这份文档不仅为用户提供了关于DeepSeek的全面知识,还体现了中国科技在人工智能领域的快速发展。《DeepSeek:从入门到精通》以通俗易懂的方式,全面介绍了DeepSeek的使用方法,为用户提供了极具价值的指导。这份文档内容丰富,篇幅长达104页,涵盖了众多实用技巧。
2025-02-09 22:20:43
5660
原创 DeepSeek 接入 PyCharm,轻松助力编程
电脑没有大显存GPU的朋友,推荐安装1.5b尺寸,这版尺寸普通电脑无GPU的都能流畅运行,延时几乎在1-2秒,更为关键的是,DeepSeek-r1之所以爆出圈有一个重要原因,小尺寸模型回答质量也很高,即便1.5b如此小的参数尺寸亦如此。大模型在本地搭建,除了能够方便个人知识库管理,详见上一篇介绍,还能提效编程学习,比如Python,Java等,学编程就像学做事的思路和逻辑,挺重要也很有意思。,安装Pycharm社区版,完全免费,下载地址在我的公众号后台回复:Pycharm,即可获取。
2025-02-04 15:36:38
4081
5
原创 面试官提问:Transformer为什么使用多头注意力机制?
最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。“线性变换”是机器学习中针对数据常用的变换方式,通过线性变换可以将数据进行降维、解耦、筛选精炼等操作。而 Transformer 中的“线性变换”有着十分独特且重要的意义,它是导致 Multi-Head Attention 机制得以成功运行的根基。
2025-02-03 23:35:19
661
原创 使用 Lora进行微调DeepSeek大模型
最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。现存在的大模型已经很完善了,但在特殊场景下,他们的完成效果并不理想,也存在很多禁忌。主要体现在以下方面:1、由于不可抗原因,对输出内容限制,对敏感内容禁止输出。2、达不到理想的回复效果,忠实性不太理想,会天马行空。3、想对产品做推广回复,在回复中要忠于产品,推广产品。
2025-02-03 23:32:49
4475
3
原创 Llama 3.3 开源!一文讲透模型推理、模型微调全流程
最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。
2024-12-29 18:54:00
893
原创 【大模型】开源向量数据库性能对比: Milvus, Chroma, Qdrant
Qdrant:优点:中规中矩,Qps 相对较高、延迟相对较低。在CPU和磁盘IO方面的利用率较高,能够在处理高负载时提供较好的性能。缺点:在大数据集的加载时间和总体检索精度上略逊于 Milvus,适合对过滤查询有需求但不追求极端性能的场景。对CPU和内存的需求较大,尤其在高并发和复杂查询时可能会出现较高的资源消耗,导致系统负载上升。Chroma:优点:对于较小的数据集,Chroma 更容易上手和集成。对CPU的依赖较低,更多依赖内存来处理大规模数据。缺点。
2024-12-29 18:40:50
2469
原创 大模型:SFT 模型为何不如 Pretrain 模型
怎么说呢,分布差异这个观点肯定是正确的,但肯定不能作为这个问题的答案,有点太抽象了。继续往下,我开始从数据的角度出发,围绕着“special_token,学习某种 pattern,sft 模型不再是传统的语言模型了,续写能力变成 QA 能力了”这几个点分析,说的应该也是都有道理,但总感觉还是没戳中关键点。这里,一定不能总是用人思考的方式来揣摩机器思考的方式,我们认为“中国的首都是北京”是天经地义的几个 token 就学会的知识,模型可能是从《北京的发展史》这一本几万 token 的书籍中才学到的这个知识。
2024-12-09 23:19:50
940
原创 小白学大模型 RAG:9种不同的Chunk划分方法
最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。在RAG(Retrieval Augmented Generation)技术中,划分chunk是将长文档或数据集切割成较小的、独立的部分,以便于处理、存储和检索。
2024-12-09 23:12:46
2071
原创 算法|双非本硕,一篇A类顶会|阿里云3轮面试挂了
9、做了两个题目,求最大子数组和,leetcode 原题,一个多星期之前我还做过这题,但是第一次在线答题,很紧张,没想出用动归的方法,做完之后又来了一道求最大子数组的乘积。研究生做的方向是 2d 目标检测以及弱监督学习,拥有过两段校企合作的项目经历(一个是目标检测项目、一个是人像抠图项目)面了 13 家中大厂,挂了 6 家,拿了 6 家 offer(字节跳动、上海 AI Lab、地平线等),五五开。3、详细介绍论文中的三个 loss,以及各自的涨点情况,比 sota 高了多少?最终端侧部署工作是谁做的?
2024-12-09 23:04:42
330
原创 代码大模型 Qwen 2.5-Coder 深夜开源,Prompt 编程的时代来了!
最近已有不少大厂都在秋招宣讲了,也有一些在 Offer 发放阶段。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。Qwen2.5-Coder 的特点强大:Qwen2.5-Coder-32B-Instruct 成为目前 SOTA 的开源代码模型,代码能力追平 GPT-4o。在展现出强大且全面的代码能力的同时,具备良好的通用和数学能力;
2024-11-24 11:33:48
1324
原创 大模型为什么都倾向于decoder-only?
T5 Scale up 到 100B、500B 的难度很大,训练成本的增加远远高于 GPT。因此也许 100B 的 T5 训练 10T tokens 的模型能力比 100B 的 GPT 更强,但为此要支付的算力/时间成本远大于 100B GPT 训练 10T tokens。以至于:没有公司愿意支付这样的代价我还不如支付相同的代价,让 GPT 多训练更多倍的 Tokens;或者训练一个参数量大很多的 GPT。
2024-11-24 11:19:45
1181
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人