面经总结系列（一）： 58同城算法工程师

GoAI

已于 2024-05-05 02:02:14 修改

阅读量1.4k

点赞数 31

分类专栏： AI面经总结深入浅出LLM 文章标签：人工智能大模型 LLM 面经

于 2024-04-20 15:05:00 首次发布

本文链接：https://blog.csdn.net/qq_36816848/article/details/137999719

版权

深入浅出LLM 同时被 2 个专栏收录

28 篇文章

订阅专栏

AI面经总结

21 篇文章

订阅专栏

本文概述了算法工程师面试中的关键知识点，包括GBDT与XGBoost的区别、LSTM的特点、Transformer的优势以及FocalLoss在样本不平衡处理中的应用。同时，还涉及了MapReduce原理、C++指针和引用的区别以及二叉搜索树和二叉堆的比较。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

👨‍💻作者简介： CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋 ，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接 加群。

🎉AI学习星球推荐： GoAI的学习社区 知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接

💚AI面经专栏总结： 本专栏主要为总结各小中大厂的面经系列总结，内容涵盖了多个热门技术领域，包括但不限于算法、机器学习、CV、NLP、大模型、测开、大数据、数分等，内容包括问题及详细答案，此外金邀请了行业内经验丰富的技术专家和面试官，分享面试经验和技巧，帮助求职者顺利通关各类技术面试。

算法工程师面经系列

58同城算法工程师 base北京一面

Gbdt和xgboost的区别

XGBoost是对GBDT的改进和扩展，它提供了更高的效率、更好的性能、正则化技术、内置特征选择等功能。
(1) 正则化:
GBDT使用基本的树模型，并在每一轮迭代中逐渐增加树的复杂性。它使用简单的正则化技术，如叶子节点的最小样本数限制，来防止过拟合。
XGBoost引入了正则化技术，包括L1和L2正则化，以减少过拟合风险。它还使用了二阶导数信息来提高训练的稳定性。
(2) 高效性:
XGBoost通过多线程和分布式计算提供了更高的训练效率。它实现了高度优化的数据存储和计算，以减少内存使用和加速训练过程。
GBDT通常以串行方式训练，训练时间可能较长，特别是在处理大规模数据时。
(3) 缺失值处理:
XGBoost能够自动处理缺失值，无需手动进行处理。
在GBDT中，需要在数据预处理阶段手动处理缺失值，通常通过填充或删除缺失值。
(4) 内置特征选择:
XGBoost具有内置的特征选择功能，它可以估计每个特征的重要性，并根据其重要性进行特征选择。GBDT通常需要手动进行特征选择或依赖其他特征选择方法。
(5) 求导优化:
GBDT只需要对目标函数求一阶导，xgboost要求二阶导。
Lstm的特点

(1) 门控机制: LSTM引入了门控机制，包括遗忘门、输入门和输出门，这些门控制着信息的流动和保存。遗忘门决定哪些信息应该被遗忘，输入门控制哪些信息应该被添加到记忆单元，输出门控制什么信息应该传递到下一个时间步。这种机制有助于控制信息的流动，提高了模型的训练效率。
(2) 长期记忆: LSTM的主要特点是能够捕捉和维护长期依赖关系，它在处理序列数据中表现出色。传统的RNN存在梯度消失问题，导致难以学习长序列的依赖关系，而LSTM通过设计具有记忆单元的结构来解决这个问题，允许信息在长时间内保持不变。
(3) 平行化训练: LSTM具有良好的并行性，可以加速训练过程，特别是在GPU上进行训练。这有助于处理大规模数据和加速深度学习模型的训练。
Transformer的最重要的特点，对比CNN的效果

最重要的特点是自注意力机制。
对比CNN，transformer更注重全局特征，特征之间能并行计算，CNN更注重局部特征，图像分类领域中，在图像数量充足的情况下，tranformer的效果通常比CNN好。
ReLU激活函数的优缺点，怎么改进
优点:
(1) 当特征值大于0时，可以避免梯度消失
(2) 计算简单
缺点:
(1) 非零均值
(2) 当特征值大量小于0时，可能引起梯度消失
(3) 当特征值大于0时，非线性拟合能力可能下降
改进:
改用Leaky ReLU函数
Linux命令的使用： Sort
file.txt
int int string
1 2 str1
1 1 str2
2 2 str3

按第一列的倒序，第二列的正序排序输出
2 2 str3
1 1 str2
1 2 str1

答案:
sort -r 1 -k 2 file.txt

Coding 斐波那契数列
1 1 2 3 5 …
input : n
output: 第n位的值
n = 3, => 3

def func(n):
    if n == 0 or n == 1:
        return 1
    a, b = 1, 1
    for i in range(2, n+1):
        tmp = b
        b = a + b
        a = tmp
	return b

了解隐码模型和CRF吗？介绍一下
简单介绍一下Mapreduce
它用于处理海量数据，其核心思想是将大规模数据集分为多个小的子集，然后并行处理这些子集，最后将结果进行合并。
C++的指针和引用的区别
(1)引用访问一个变量是直接访问，而指针是间接访问。
(2)引用是一个变量的别名，不额外占用内存空间，而指针是一个变量，有自己的内存空间。
(3)引用定义的时候必须赋值,并且赋值之后不可以改变，指针定义的时候可以不赋值，赋值后可以改变其所指的值。
(4)引用不可以为空，但是指针可以指向空值。
(5)引用是类型安全的，一般不会引起内存泄露的问题，指针可能会，一般尽可能用引用代替指针。

58同城算法工程师 base北京二面

聊项目
介绍自己最熟悉的几个模型
我介绍了resnet，inceptionnet, yolo模型等
介绍Yolo模型，主要是3-5
one-stage Yolo算法v1-v3 - 知乎
 接上一篇Yolo v4-v5 - 知乎
样本不均衡的处理方法
(1) 欠采样
(2) 过采样
(3) 平衡读取数据
(4) 设置权重，对样本较少的数据设置较高的训练权重
(5) 使用平衡损失函数，比如focal loss等
(6) 数据增强
介绍Focal loss
Focal Loss 最初由物体检测领域的研究者提出，其主要目标是减轻模型在训练过程中对大多数背景类别的关注，从而更好地处理少数类别的样本。这种损失函数有助于提高模型对罕见类别的检测性能。
Focal Loss 的主要特点如下:
关注难分样本: Focal Loss 通过调整样本的权重，更加关注难以分类的样本。通常情况下，容易分类的样本(大多数属于背景类别)会降低其权重，而难分类的样本(属于少数类别)会增加其权重。
降低易分类样本的权重: 通过调整损失函数，Focal Loss 能够有效地降低容易分类的样本(背景类别、样本数量多的类别)的权重，这样模型将更加关注罕见类别，从而提高了模型在罕见类别的检测能力。
Focal Loss 的引入有助于提高目标检测模型对于罕见目标的检测性能，减轻了类别不平衡问题对模型训练的影响。
二叉搜索树和二叉堆的区别
二叉搜索树的左子树的结点的值都比根结点小，右子树结点的值都比根结点大。一般情况下，插入删除搜索的时间复杂度是O(logn)，最坏情况下是O(n)
二叉堆分为最大堆、最小堆。如果是最大堆，只要保证根结点的值大于左右子树的结点的值。插入删除排序的时间复杂度是O(nlogn)