大模型与自然语言处理-CSDN博客

原创《大模型实战宝典》（2024版）正式发布！

2024 年刚开年，OpenAI 推出的文生视频工具 Sora 再次风靡全球，成为 OpenAI 继 ChatGPT 之后新的生成式 AI 标杆。关于大模型的话题不断涌现，令人应接不暇，截至到目前，国内大模型已发布数量超过200个。去年我们写了一本《大模型实战宝典》（以下简称《实战宝典》），有很多小伙伴订阅，反馈内容通俗易懂，有基础知识做铺垫，收获了很多。今年年初开始，就开始计划内容大版本升级，前期也做了很多准备工作。

2024-03-23 08:25:57 1424

原创《大模型面试宝典》(2024版) 正式发布！

2022 年11月底，OpenAI 正式推出 ChatGPT ，不到两个月的时间，月活用户就突破1亿，成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个，大模型的出现彻底改变了我们的生活和学习方式。现在只要你想从事 AI 相关的岗位，无论是计算机视觉（CV）、自然语言处理（NLP）、搜广推、风控等，大模型相关话题都是绕不开的。节前，我们星球群组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-03-23 08:21:03 2553

原创图解大模型训练系列：序列并行2，DeepSpeed Ulysses

最近已有不少大厂都在秋招宣讲，也有一些已在 Offer 发放阶段了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。大家好，在序列并行系列中，我们已经介绍过了Megatron SP，今天这篇文章我们来看DeepSpeed Ulysses。在正文开始前，。所以虽然paper短小，coding改动也小，一，使整个理解过程变得过于眼鼻酸涩。

2024-11-03 10:48:55 582

原创图解大模型训练系列：序列并行1，Megatron SP

不做任何并行处理时，单卡上attn+mlp层的激活值大小假设有t块卡，纯tp处理时，单卡上attn+mlp层的激活值大小，这里唯一没有被t除的10表示attn和mlp中和layernorm输入、输出以及最后一个dropout mask相关的部分。这一部分也是sp关注的优化点。假设有t块卡，做tp+sp处理时，单卡上attn+mlp层的激活值大小为。

2024-11-03 10:45:26 899

原创面试官提问：Flash Attention 是怎么做到又快又省显存的？

Flash Attention的动机是尽可能避免大尺寸的注意力权重矩阵在 HBM 和 SRAM 之间的换入换出。论文中具体方法包含两个部分：tiling 和 recomputation。tiling 的基本思路：不直接对整个输入序列计算注意力，而是将其分为多个较小的块，逐个对这些块进行计算，增量式地进行 softmax 的规约。规约过程中只需要更新某些中间变量，不需要计算整个注意力权重矩阵，就是以上介绍的将三步合并成两步的过程。

2024-10-26 22:09:57 699

原创阿里面试竟被“DPO微调”吊打...

最近已有不少大厂都在秋招宣讲，也有一些已在 Offer 发放阶段了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。最近又认真读了一遍大佬的文章：朱小霖：DPO 是如何简化 RLHF 的。不由感叹，数学不愧是 AI 技术的第一生产力，但凡我当初对这个证明过程多深入思考一会儿，也不至于踩那么多坑。

2024-10-26 22:06:33 871

原创上周面了一个复旦女生大模型算法岗，还真的不错

用户提出查询（User Query），然后我们从知识库中检索相关信息，得到相关的上下文，然后将"Instruction + context"输入到大模型中，最后大模型基于此生成答案，这样就确保了回答的准确性和可靠性，并使回答基于具体的上下文，可以进行验证。，可以提供最新且准确的响应，RAG 利用最新的外部数据源，而不仅仅依赖于静态的训练数据。继续来看今天的内容，这段时间我不是在集中招聘嘛，面了很多候选人，清华，北大，华五，包括一些海外的学校都有，所以也准备给大家集中分享一些面试的情况，帮助大家备战秋招。

2024-10-20 23:22:52 832

原创构建知识图谱：从技术到实战的完整指南

知识图谱，作为人工智能和语义网技术的重要组成部分，其核心在于将现实世界的对象和概念以及它们之间的多种关系以图形的方式组织起来。它不仅仅是一种数据结构，更是一种知识的表达和存储方式，能够为机器学习提供丰富、结构化的背景知识，从而提升算法的理解和推理能力。在人工智能领域，知识图谱的重要性不言而喻。它提供了一种机器可读的知识表达方式，使计算机能够更好地理解和处理复杂的人类语言和现实世界的关系。通过构建知识图谱，人工智能系统可以更有效地进行知识的整合、推理和查询，从而在众多应用领域发挥重要作用。

2024-10-20 22:55:11 942

原创使用 Ollama 部署本地 LLM：构建 AI REST API 的简易指南

最近已有不少大厂都在秋招宣讲，也有一些已在 Offer 发放阶段了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。利用Ollama本地LLM（大语言模型）搭建AI的REST API服务是一个实用的方法。下面是一个简单的工作流程。

2024-10-20 22:44:23 859

原创百度算法岗一面问我Sparse Attention，扎心啊。。。

这样我们通过 Ring Attention 解决了显存瓶颈，通过 Sparse Attention 解决了计算瓶颈，二者结合，就实现了线性内存扩展与序列长度的匹配优化，从而完成了高效的实现。考虑，和稀疏注意力技术结合。因为长上下文带来的，不仅仅是计算的增加，还会带来显存的显著增加，如果单卡 GPU 放不了，这时候就要考虑分布式多卡的解决方案。它的思路是，将单卡内部做的分块优化扩展到多卡上，通过跨卡点对点的传递 K,V 向量，来实现完整注意力，在不做近似地情况下完成超长上下文的计算。你心里一慌，这题超纲啦！

2024-10-04 09:25:12 1031

原创双非本 985 硕，上岸快手大模型算法岗！

最近已有不少大厂都在秋招宣讲，也有一些已在 Offer 发放阶段了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。今天分享我们一位星球成员的上岸之旅，最终拿下快手大模型算法岗：算法岗真的要好好研究明白才行，问的内容全又细，面试官几乎全程直接提问题，没有什么闲聊内容。

2024-10-04 08:58:08 494

原创零一万物代码编程小能手 Yi-Coder 模型实战教程来了

Yi-Coder 系列模型专为编码任务而生，提供 1.5B 和 9B 两种参数。其中，Yi-Coder-9B 的表现优于其他 10B 参数以下的模型，如 CodeQwen1.5 7B 和 CodeGeex4 9B，甚至能够与 DeepSeek-Coder 33B 相媲美。模型特点尽管 Yi-Coder 的参数量相对较小，但它在各种任务，包括代码生成、代码理解、代码调试和代码补全中的表现十分出色。10B 以下的大小也让它易于使用，方便端侧部署。

2024-10-02 11:16:54 1018

原创仅需10G显存，使用 Unsloth 微调 Qwen2 并使用 Ollama 推理

使用ollama create命令创建自定义模型!

2024-10-02 10:59:42 949

原创米哈游大模型算法岗，竞争真的太激烈了！

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。不得不说，米哈游真的是大热门，面试真的好多好多人，竞争真的好激烈！还好我提前看了一些面试高频问题和面经分享，成功拿下了梦想中的 offer！今天和大家分享一下最近常被问到的面试题，希望助力大家都能拿到心仪的offer！

2024-10-01 21:30:55 696

原创一文彻底搞懂 Qwen2 ：源码解析

中，对于输入序列中的每个位置 (i)，其嵌入向量 (x_i) 会被一个旋转矩阵 (R_i) 进行变换：其中，旋转矩阵 (R_i) 是根据位置 (i) 计算得到的。中，如果没有传递，将使用模型的默认生成配置。: 束采样结合了束搜索和采样的特点，在每一步生成时，既保留多个候选序列，又通过采样选择下一个词。: 辅助生成是一种结合了多种解码方法的策略，通常在生成过程中引入外部知识或规则，以指导生成过程。: 束搜索是一种扩展贪心搜索的方法，在每一步生成时，保留多个候选序列，最终选择概率最高的序列。

2024-10-01 21:26:01 1645

原创探索更强中文Embedding模型：Conan-Embedding

最近这一两周看到不少互联网公司都已经开始秋招提前批面试了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。总结链接如下：《大模型面试宝典》(2024版) 发布！喜欢本文记得收藏、关注、点赞。本文主要分享我们近期在Embedding模型训练上的工作「Conan-Embedding」。目前，Conan-Embedding已在最全面、最大规模的中文语义向量评

2024-09-29 09:34:38 861

原创使用 Ollama 部署本地 LLM：构建AI REST API的简易指南

最近这一两周看到不少互联网公司都已经开始秋招提前批面试了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。利用Ollama本地LLM（大语言模型）搭建AI的REST API服务是一个实用的方法。下面是一个简单的工作流程。

2024-09-29 09:31:16 1040

原创一文彻底搞懂大模型 - 基准测试（Benchmark）

最近这一两周看到不少互联网公司都已经开始秋招提前批面试了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。LLM（Large Language Model，大型语言模型）中的Benchmark（基准测试）是用于衡量和比较不同LLM性能的一组经过精心设计的测试任务、问题和数据集。这些基准测试遵循标准化的流程，以评估LLM在核心语言处理任务上的表现。

2024-09-21 19:13:36 1682

原创一文彻底搞懂大模型 - OpenAI o1（最强推理模型）

而o1在每个问题上使用一个样本平均解决了74%（11.1/15）的问题，使用64个样本的共识解决了83%（12.5/15）的问题，并使用学习到的评分函数对1000个样本进行重新排序后解决了93%（13.9/15）的问题。在其他一些机器学习基准测试中，o1也超过了最先进的模型。OpenAI 从GPT3开始转向闭源，很多技术细节都没有公布，OpenAI o1这次也不例外，网上很多人反馈想通过使用o1一步步去debug它的Chain of Thought（思维链），从而去了解o1的思维链思考过程，结果被封号了。

2024-09-21 19:09:02 796

原创面了阿里大模型算法岗，出门秒挂。。。

当前大模型岗位更加强调实践，如果没有做过大模型的项目且没有针对性准备过，很难回答上大模型微调是很多公司的考察重点几种模型的注意力机制、位置编码要熟悉。RLHF 的几步多熟悉熟悉。

2024-09-08 16:15:19 760

原创从头讲解vLLM推理加速原理

简而言之，PagedAttention 背后的想法是创建映射到 GPU 内存中的物理块的连续虚拟块。这种加权求和的方式使得模型能够根据当前上下文的需求，灵活地整合来自不同位置的信息，从而形成对当前词"it"的理解。例如，对于融合重塑和块写入，开发了优化的内核，将新的 KV 缓存拆分为块，重塑它们以实现高效的内存访问，并根据块表保存它们，所有这些都融合到单个内核中以减少开销。序列A的逻辑块现在指向这个新的物理块。这类模型的核心特征是逐个生成序列中的元素，每个新元素的生成都依赖于之前已生成的所有元素。

2024-09-08 16:13:01 1437

原创面了美团大模型算法岗，问的贼细。。。

最近这一两周看到不少互联网公司都已经开始秋招提前批面试了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

2024-09-01 15:52:16 1127

原创一文彻底搞懂大模型 - Fine-tuning三种微调方式

最近这一两周看到不少互联网公司都已经开始秋招提前批面试了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。在生成式AI和大语言大模型（如GPT、LLaMA）的广泛应用中，微调（Fine-tuning）作为模型适应特定任务的关键步骤，其重要性不言而喻。

2024-09-01 15:45:50 1141

原创 AIGC 大模型实践总结

积极拥抱变化，拒绝无谓焦虑。AI技术发展更多地是对人类能力的补充而非替代，更多作为“助理”的效果。在人工智能飞速发展的今天，我们正站在这个时代的十字路口，AI的进步为我们揭开了技术创新的新篇章，提供了前所未有的便利和机遇；另一方面，技术的飞跃发展也带来人们对未来工作和生活方式的不确定性，引发了人们心中的焦虑和恐惧。前总理：“中国有6亿人月收入不到1千”。最广大的用户可能并没有感受到GPT的日新月异的变化。持续学习与适应是关键，不断学习新知识，提升对AI技术的理解和掌握。

2024-08-29 17:50:45 1286

原创关于垂直领域大模型的探索和尝试

以上就是我们团队这段时间在垂类大模型的一些思考和实践。经过一年多的探索，虽然我们在不少的场景上都有突破和进展，但肉眼可见依然有很多领域尚未完善，未来有很多工作需要进一步展开，也非常欢迎大家一起交流大模型技术。

2024-08-29 17:44:55 796

原创一文看尽大模型对齐技术：RLHF、RLAIF、PPO、DPO……

为此，需要对 LLM 进行持续的微调，进行迭代式 / 在线学习，即使用中间策略为 prompt 生成响应，再使用预言机（oracle）为这样的成对数据给出偏好反馈，再将这些反馈馈送给策略。相反，Anthropic 的研究者评估了大小在 13M 到 52B 之间的 7 种不同模型，这些模型的大小按 4 倍的几何级数增长。从结果上看，人类评估表明「相比于 175B 的 GPT-3，人们更偏好 1.3B 参数版本的 InstructGPT 模型的输出，尽管后者的参数量少 100 多倍。

2024-08-19 23:03:26 1143

原创面了豆包大模型算法岗，挂在一面。。。

即便不是做对齐的，还是要有对齐技术的认知对论文不是很care，可能只是用来筛简历，估计和llm有关的项目比较有价值大模型头部计划竞争对手太猛了，应该都是知名模型公司的深度参与llm训练的。

2024-08-19 22:56:08 826

原创 Ollama 可以玩 GLM4和CodeGeeX4了

使用ollama create命令创建自定义模型。

2024-08-11 08:28:11 884

原创 GraphRAG+Ollama，构建本地精准全局问答系统！

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。RAG 是目前大语言模型相关最知名的工具之一，从外部知识库中检索事实，以便为大型语言模型 (LLM) 提供最准确、最新的信息。但 RAG 并不完美，在更好的使用 RAG 方面仍存在许多挑战。

2024-08-11 08:22:23 1190

原创面完 AIGC 大模型算法岗，心态崩了。。。

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。大家好，今天我们继续聊聊 AI 科技圈发生的那些事。内容包括：AI 科技圈最新动态和最新面试题总结。

2024-08-10 17:21:57 719

原创大模型39 种提示工程在 29 种 NLP 任务精度对比

在这种方法中，基本提示指令通过添加医学术语定义得以增强，基于这样一种假设，即添加这些定义将帮助LLM在回答查询时获得更多上下文。但结果显示，这些术语定义并没有真正起作用，可能是因为它们的知识范围狭窄，可能与LLM的更大知识库相冲突。

2024-08-10 17:16:04 1008

原创面了大模型算法岗，被疯狂拷打。。。

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。这两天求职群分享了很多大厂的算法岗面试真题，发现大模型、AIGC、LLM相关的面试题特别多。要知道现在这类岗位需求增量非常大，而且很高薪！于是我整理了大模型面试高频题，希望对你有所帮助1. 位置编码有哪些？2. 介绍LoRA与QLoRA。

2024-07-28 23:39:54 1081

原创一文讲透大模型 RAG

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。大型语言模型（LLMs）已经成为我们生活和工作的一部分，它们以惊人的多功能性和智能化改变了我们与信息的互动方式。然而，尽管它们的能力令人印象深刻，但它们并非无懈可击。这些模型可能会产生误导性的 “”，依赖的信息可能，处理特定知识时。

2024-07-28 23:32:59 739

原创字节大模型算法岗一面，直接跪了。。。

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。最近分享了很多大厂的算法岗面试真题，大家要清楚：AIGC相关的面试题猛增，特别是爆火的LLM、多模态、扩散模型等考察的知识点越来越多。这里特别整理了几道字节跳动一面中最新的代表性面试题，下图中的题目，你会几题？！介绍SAM和变体xLSTM有哪些新技术？

2024-07-28 23:23:57 1032

原创小白学RAG：架构、策略和应用

暑期实习基本结束了，校招即将开启。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。大型语言模型（LLMs）在语言理解和生成方面展示了革命性的能力，但它们仍然面临着一些固有的局限性，比如幻觉和过时的内部知识。

2024-07-20 23:25:21 791

原创大模型处理29个NLP任务的39种prompt策略总结

我们来看看大模型在特定任务上的雕花，来看个NLP里面的prompt工程总数，《A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks》(https://arxiv.org/abs/2407.12994)，**阅读并呈现了44篇研究论文的综述，其中讨论了29个不同NLP任务上的39种不同的提示方法。

2024-07-20 23:22:08 926

原创一文细数大模型 RAG 十二大痛点及解决方案

暑期实习基本结束了，校招即将开启。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。检索增强式生成（RAG）是一种使用检索提升语言模型的技术。具体来说，就是在语言模型生成答案之前，先从广泛的文档数据库中检索相关信息，然后利用这些信息来引导生成过程。这种技术能极大提升内容的准确性和相关性，并能有效缓解幻觉问题，提高知识更新的速度，并增强内容生成的可追溯性。

2024-07-13 10:07:37 1270

原创 2年大模型微调炼丹心得总结

暑期实习基本结束了，校招即将开启。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

2024-07-13 08:58:57 1007

原创自然语言处理(NLP)-BERT 实战-模型微调-情感分析

暑期实习基本结束了，校招即将开启。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。本篇我们使用微博数据集(weibo_senti_100k)进行训练，此数据集已经进行标注，0: 负面情绪，1:正面情绪。数据集共计82718条(包含标题)。如下图：下面我们使用bert-base-chinese预训练模型进行微调并进行测试。

2024-06-29 10:34:31 1010

原创最终还是放弃了拼多多 NLP 算法岗（大模型方向）Offer。。。

暑期实习基本结束了，校招即将开启。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。分享一位群友面拼多多NLP算法岗（大模型方向）的面经，这位同学是有两个 Offer 机会，一个是国企，一个是互联网企业。考虑到互联网的 996 内卷和当下的就业环境，最后去了国企，放弃了这家企业最长递增子序列（LIS）的算法可以通过动态规划实现。该函数使用一个数组dp。

2024-06-29 10:26:06 953

空空如也

空空如也