4月22日-5月7日腾讯nlp算法实习面试题14道

本文整理了腾讯nlp算法实习面试的14道题目,涉及决策树种类及其损失函数、剪枝策略、信息增益比、XdeepFM与DeepFM的比较、Bert长文本训练方法、k-means原理、逻辑回归处理非线性数据、核方法求导、参数更新方法、Wide&Deep模型介绍、Xgboost、lightGBM和Catboost的异同,以及处理大数据文件的策略。
摘要由CSDN通过智能技术生成

问题1:决策树有多少种,分别的损失函数是什么?

决策树有多少种,分别的损失函数是什么?决策树有三种:分别为ID3,C4.5,Cart树

ID3损失函数︰
在这里插入图片描述

C4.5损失函数∶
在这里插入图片描述
Cart树损失函数∶
在这里插入图片描述

问题2:决策树的两种剪枝策略分别是什么?

决策树的剪枝基本策略有预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)。

预剪枝核心思想︰

在每一次实际对结点进行进一步划分之前,先采用验证集的数据来验证如果划分是否能提高划分的准确性。如果不能,就把结点标记为叶结点并退出进一步划分﹔如果可以就继续递归生成节点。

后剪枝核心思想︰

后剪枝则是先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来泛化性能提升,则将该子树替换为叶结点。

问题3:信息增益比跟信息增益相比,优势是什么?

以信息增益作为划分训练集的特征选取方案,存在偏向于选取值较多的特征的问题。信息增益比可以解决该问题。

问题4:介绍XdeepFM算法,XdeepFM跟DeepFM算法相比,优势是什么?

在这里插入图片描述

上图为xDeepFM的总体结构,有三个分支:Linear(稀疏的01向量作为输入)、DNN(经过embedding的稠密向量作为输入)、CIN(压缩感知层)。

xDeepFM如果去掉CIN分支,就等同于Wide & Deep。

xDeepFM将基于Field的vector-wise思想引入Cross,并且保留了Cross的优势,模型结构也很elegant,实验效果也提升明显。

回答: NLP算法工程师面试题主要涉及到三个方面的内容:麦田怪圈、L1正则化和优化函数。麦田怪圈是指通过某种未知力量将农作物压平形成的几何图案,存在人为说、自然形成说和磁场说等多种解释。 L1正则化是一种稀疏规则算子,指向量中各元素绝对值之和,通常用作L0正则项的最优凸近似。 优化函数是一种数学方法,用于解决机器学习算法中存在的优化问题,通常通过迭代的方式逼近最优解。优化函数的基本框架包括定义待优化参数、损失函数、学习率和参数更新框架等。 在NLP算法工程师面试中,可能还会涉及到生成式模型、梯度下降法等内容。生成式模型是指通过对联合分布进行建模,生成采样数据并选择最优概率的label作为结果。生成式模型的优点是能够生成新的样本数据,但缺点是没有判别边界。 梯度下降法是一种优化算法,通过计算损失函数关于当前参数的梯度,根据历史梯度计算一阶动量和二阶动量,然后根据下降梯度更新参数。123 #### 引用[.reference_title] - *1* *2* *3* [NLP 算法工程师面试问答-BasicAlgorithm](https://blog.csdn.net/suli77/article/details/129208430)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值