#2023年3月15日#
Nlp training
Q1: 在职期间nlp最完整的,从数据收集、模型搭建、模型部署开始说起:
Q2:地址相似度是怎么实现的?双塔模型了解过吗?文本相似度是怎么实现的吧!
Q3:transformer你有了解过吗?说说chatgpt,gpt4吧!
Data analysisi(恒安标准人寿):
Q1:自我介绍?说说你最了解的二分类模型吧,从简单到难?
Q2:说一说random forest以及xgboost?
首先这两个方法都属于集成学习范畴,即通过多个弱基学习器得到一个强基学习器。随机森林,是bagging的集成学习,随机体现在对样本进行随机抽取如从n个样本中选取每个样本进入决策树去学习。森林体现在有b个决策树,这些树之间是互不影响的是可以并行学习的,所以这样就导致不容易overfit,但是导致对于很难的样本就不是很容易区分。
Xgboost是一种boosting的集成学习方法。即第i+1个决策树是依赖于第i个决策树的基础上,基本原理对于分对的样本较小权重,分错的样本增加权重的思想。容易过拟合。每次要学习的目标是上次学习的残差,直到残差小到满足我们的要求或其他终止条件。思想不完全信任每一个棵残差树,我们认为每棵树只学到了真理的一小部分,累加的时候只累加一小部分,只有通过多学几棵树才能弥补不足。
算法流程
该算法其实是一个简单的弱分类算法提升过程,这个过程通过不断的训练,可以提高对数据的分类能力。整个过程如下所示:
- 先通过对N个训练样本的学习得到第一个弱分类器;
- 将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器 ;
- 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;
- 最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定。
Q3:roc曲线是什么?评分卡模型了解吗?