面试字节大模型算法实习岗，感觉有点崩溃。。。

最新推荐文章于 2024-08-15 10:34:48 发布

大耳朵爱学习

最新推荐文章于 2024-08-15 10:34:48 发布

阅读量1.3k

点赞数 44

文章标签：面试算法职场和发展人工智能 LLM 经验分享算法实习

本文链接：https://blog.csdn.net/2401_85379281/article/details/140653780

版权

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们。

应聘岗位：字节大模型算法实习生
面试轮数：第一轮
整体面试感觉：偏难

1. 自我介绍

2. 技术问题回答

2.1 介绍一下 transformer？

传统的seq2seq模型使用循环神经网络（RNN）来处理序列数据，但RNN存在一些限制，如难以并行计算和难以捕捉长期依赖关系。Transformer则通过使用自注意力机制（self-attention）来解决这些问题。

Transformer模型由编码器和解码器组成。编码器将输入序列转换为一系列高维特征表示，而解码器则将这些特征表示转换为输出序列。编码器和解码器都由多个相同的层组成。每个层都包含一个自注意力子层和一个前馈神经网络子层。

自注意力机制允许模型在编码和解码过程中对输入序列的不同部分进行加权。它通过计算每个输入位置与其他位置之间的相关性得分，来决定每个位置的重要性。这样，模型可以更好地关注关键的上下文信息。

除了自注意力机制，Transformer还引入了残差连接和层归一化，来帮助模型更好地训练和优化。残差连接允许模型在不同层之间直接传递信息，层归一化则有助于减轻训练过程中的梯度问题。

Transformer模型的训练通常使用无监督的方式，如自编码器或语言模型。一旦训练完成，它可以用于各种序列到序列任务，如机器翻译、文本摘要、对话生成等。

2.2 transformer的输入和输出分别是什么？

Transformer 的输入是经过词嵌入（Word Embedding）和位置嵌入（Positional Embedding）处理后的序列，输出也是经过词嵌入和位置嵌入处理后的序列。

具体来说，Transformer 的输入是一个由单词或符号组成的序列，如句子或文本。首先，将这些单词或符号转换为它们的嵌入向量，通常是通过词嵌入技术实现的。然后，为每个单词或符号分配一个位置嵌入向量，以表示它们在序列中的位置。这些嵌入向量和位置嵌入向量被组合在一起，形成一个三维的张量，作为 Transformer 的输入。

Transformer 的输出也是一个由单词或符号组成的序列，与输入序列具有相同的形状。在 Transformer 中，输入序列和输出序列之间通过自注意力机制（Self-Attention）进行交互。在每个时间步，Transformer 都会计算输入序列中每个单词或符号与输出序列中每个单词或符号的注意力权重，并基于这些权重生成输出序列中的每个单词或符号的嵌入向量。最终，这些嵌入向量被转换回单词或符号，形成输出序列。

2.3 说一下 Bert模型？

BERT 模型的核心思想是通过大规模的无监督预训练来学习通用的语言表示，然后在特定任务上进行微调。相比传统的基于词的语言模型，BERT 引入了双向 Transformer 编码器，使得模型能够同时利用上下文信息，从而更好地理解词语在不同上下文中的含义。

BERT 模型的预训练阶段包含两个任务：Masked Language Model (MLM) 和 Next Sentence Prediction (NSP)。在 MLM 任务中，模型会随机遮盖输入序列的一部分单词，然后预测这些被遮盖的单词。这样的训练方式使得模型能够学习到单词之间的上下文关系。在 NSP 任务中，模型会输入两个句子，并预测这两个句子是否是连续的。这个任务有助于模型理解句子之间的关联性。

在预训练完成后，BERT 模型可以通过微调在各种下游任务上进行应用，如文本分类、命名实体识别、问答系统等。通过微调，BERT 模型能够根据具体任务的数据进行特定领域的学习，从而提高模型在特定任务上的性能。

BERT 模型的优势在于它能够捕捉词语之间的上下文信息，从而更好地理解自然语言。它在多项自然语言处理任务中取得了领先的性能，并推动了该领域的发展。

2.4 说一下 transformer的输出和 bert 有什么区别？

Transformer输出：在标准的Transformer模型中，输出是由解码器的最终层产生的，通常是一个表示整个序列的向量。这个向量可以用于各种任务，如文本分类、生成等。
BERT输出： BERT（Bidirectional Encoder Representations from Transformers）是基于Transformer的预训练模型，主要用于学习丰富的上下文语境。BERT的输出不仅包含了整个序列的向量，还包括了每个输入词的上下文相关表示。BERT的预训练阶段包括两个任务：Masked Language Model（MLM）和Next Sentence Prediction（NSP）。

总的来说，BERT的输出更注重于每个词的上下文相关表示，而标准的Transformer输出更倾向于整个序列的表示。

2.5 注意力机制都有哪些？能不能简单介绍一下？

自注意力机制（Self-Attention）：给定一个输入序列，自注意力机制通过对序列中每个元素计算权重，然后将这些权重加权求和得到输出。这个权重表示了模型对输入中不同位置的关注程度。具体来说，对于每个位置，通过计算与其他位置的相似度得到一个权重，最后将这些权重应用于输入序列上。这使得模型能够同时关注序列中的多个位置。
多头注意力机制（Multi-Head Attention）：
思路：为了提高模型的表达能力，Transformer引入了多头注意力机制，允许模型学习多组不同的注意力权重。每个注意力头都产生一个输出，最后通过线性变换和拼接得到最终的多头注意力输出。
缺点：MQA（multi query attention）会导致quality degradation，我们不希望仅仅是推理快，而且还希望quality可以对标MHA；
Group Query Attention(GQA)
动机：改进多查询注意力(MQA)的性能，以加速解码器的推理速度。现有的MQA方法可能导致质量下降，并且为了更快的推理速度需要训练单独的模型，并不理想。
方法：通过预训练模型进行上训练(uptraining)，将现有的多头注意力(MHA)模型转换为使用MQA的模型，并引入分组查询注意力(GQA)，多查询注意力和多头注意力的一种泛化方法。GQA使用中间数量的键值头(大于一个，小于查询头的数量)，实现了性能和速度的平衡。
优势：论文的主要优势是通过上训练(uptraining)现有模型，以较小的计算成本将多头注意力模型转换为多查询模型，从而实现快速的多查询和高质量的推理。同时，引入的分组查询注意力方法在接近多头注意力的质量的同时，速度几乎与多查询注意力相当。

2.6 树模型是如何计算每个特征的重要性的？

树模型计算特征重要性主要是根据不用的指标来计算的。

基尼重要性（Gini Importance）：基尼重要性衡量了一个特征在决策树中的节点分裂中对纯度改善的贡献程度。通过计算每个特征在不同节点上的基尼指数减小量，然后加权求和，得到特征的重要性。
信息增益（Information Gain）：信息增益用于衡量一个特征在决策树节点分裂中对不确定性的减小程度。通过计算每个特征对目标变量的信息增益，可以评估其重要性。

2.7 如何构建多模态模型？

多模态模型结合了来自不同数据源或模态的信息，通常包括视觉、语言、音频等。构建多模态模型的一般步骤包括：

数据预处理：将不同模态的数据统一格式，确保能够输入到模型中。
模型设计：使用适当的深度学习架构，如融合型（Fusion-based）或并行型（Parallel-based），将不同模态的信息整合在一起。
训练和微调：利用多模态数据进行模型训练，并通过微调来适应具体任务。

2.8 在多模态任务中，如果视觉模型的输出张量比语言模型的输出张量短很多，该进行什么操作？

可以尝试使用以下方法：

填充（Padding）：在视觉模型的输出中添加适当数量的填充，使其长度与语言模型的输出一致。
剪裁（Trimming）：在语言模型的输出中剪裁一部分，使其长度与视觉模型的输出一致。
使用注意力机制：在模型设计中，可以使用注意力机制来动态地对不同模态的信息进行权重分配，从而处理不同长度的输出。

3. Leetcode 题

无重复字符的最长子串
给定一个字符串 s ，请你找出其中不含有重复字符的最长子串的长度。

示例 1:

输入: s = "abcabcbb"
输出: 3 
解释: 因为无重复字符的最长子串是 "abc"，所以其长度为 3。

示例 2:

输入: s = "bbbbb"
输出: 1
解释: 因为无重复字符的最长子串是 "b"，所以其长度为 1。

示例 3:

输入: s = "pwwkew"
输出: 3
解释: 因为无重复字符的最长子串是 "wke"，所以其长度为 3。
     请注意，你的答案必须是 子串 的长度，"pwke" 是一个子序列，不是子串。

提示：
0 <= s.length <= 5 * 104
s 由英文字母、数字、符号和空格组成
题目解答

class Solution:
    def lengthOfLongestSubstring(self, s: str) -> int:
        '''
            方法：左右指针+哈希表
            解析：
                无重复字串哈希表：存储当前遍历到的元素，并由于判断是否重复
                左右指针：
                    r 用于 添加 不重复的字符
                    l 用于 删除元素，直到 字串中无 重复字符位置
            思路：
                1.定义 左右指针 l和r,和 无重复字串哈希表
                2.当 遇到不重复的字符，将其加入 dic，r 并往右移动；
                3. 当 遇到重复的字符， l 边往右移动，边移除左边元素，直到遇到 s[l]!=s[r]
                4. 计算 当前不含有重复字符的 最长子串 的长度
            复杂度：
                时间：O(n)
                空间：O(n)
        '''
        l = 0
        r = 0
        s_len = len(s)
        s_set = set()
        res = 0
        while r<s_len and r>=l:
            if s[r] not in s_set:
                s_set.add(s[r])
                r = r+1
            else:
                while s[l]!=s[r]:
                    s_set.remove(s[l])
                    l = l+1
                s_set.remove(s[l])
                l = l+1
            res = max(res,r-l)
        return res

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

学习计划：

阶段1：1-2个月，建立AI大模型的基础知识体系。
阶段2：2-3个月，专注于API应用开发能力的提升。
阶段3：3-4个月，深入实践AI大模型的应用架构和私有化部署。
阶段4：4-5个月，专注于高级模型的应用和部署。

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

大耳朵爱学习

关注

44
点赞
踩
47

收藏

觉得还不错? 一键收藏
0
评论
面试字节大模型算法实习岗，感觉有点崩溃。。。

传统的seq2seq模型使用循环神经网络（RNN）来处理序列数据，但RNN存在一些限制，如难以并行计算和难以捕捉长期依赖关系。Transformer则通过使用自注意力机制（self-attention）来解决这些问题。Transformer模型由编码器和解码器组成。编码器将输入序列转换为一系列高维特征表示，而解码器则将这些特征表示转换为输出序列。编码器和解码器都由多个相同的层组成。每个层都包含一个自注意力子层和一个前馈神经网络子层。自注意力机制允许模型在编码和解码过程中对输入序列的不同部分进行加权。
复制链接

扫一扫