天津恒安标准人寿面试经验

本文讨论了NLP的完整流程,包括数据收集、模型构建和部署。地址相似度和文本相似度的实现涉及到双塔模型。Transformer是重要的深度学习架构,而ChatGPT和GPT4是其应用实例。在数据分析方面,介绍了恒安标准人寿的数据分析问题,涉及二分类模型(如从简单到复杂的分类器)以及集成学习方法RandomForest和XGBoost的工作原理。最后提到了评估分类性能的ROC曲线和评分卡模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#2023年3月15日#
Nlp training
Q1: 在职期间nlp最完整的,从数据收集、模型搭建、模型部署开始说起:

Q2:地址相似度是怎么实现的?双塔模型了解过吗?文本相似度是怎么实现的吧!

Q3:transformer你有了解过吗?说说chatgpt,gpt4吧!

Data analysisi(恒安标准人寿):
Q1:自我介绍?说说你最了解的二分类模型吧,从简单到难?

Q2:说一说random forest以及xgboost?
首先这两个方法都属于集成学习范畴,即通过多个弱基学习器得到一个强基学习器。随机森林,是bagging的集成学习,随机体现在对样本进行随机抽取如从n个样本中选取每个样本进入决策树去学习。森林体现在有b个决策树,这些树之间是互不影响的是可以并行学习的,所以这样就导致不容易overfit,但是导致对于很难的样本就不是很容易区分。

Xgboost是一种boosting的集成学习方法。即第i+1个决策树是依赖于第i个决策树的基础上,基本原理对于分对的样本较小权重,分错的样本增加权重的思想。容易过拟合。每次要学习的目标是上次学习的残差,直到残差小到满足我们的要求或其他终止条件。思想不完全信任每一个棵残差树,我们认为每棵树只学到了真理的一小部分,累加的时候只累加一小部分,只有通过多学几棵树才能弥补不足。
算法流程
该算法其实是一个简单的弱分类算法提升过程,这个过程通过不断的训练,可以提高对数据的分类能力。整个过程如下所示:

  1. 先通过对N个训练样本的学习得到第一个弱分类器;
  2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器 ;
  3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;
  4. 最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定。

Q3:roc曲线是什么?评分卡模型了解吗?

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值