天津恒安标准人寿面试经验_恒安标准用的人才测评-CSDN博客

本文链接：https://blog.csdn.net/stay_foolish12/article/details/130398822

本文讨论了NLP的完整流程，包括数据收集、模型构建和部署。地址相似度和文本相似度的实现涉及到双塔模型。Transformer是重要的深度学习架构，而ChatGPT和GPT4是其应用实例。在数据分析方面，介绍了恒安标准人寿的数据分析问题，涉及二分类模型（如从简单到复杂的分类器）以及集成学习方法RandomForest和XGBoost的工作原理。最后提到了评估分类性能的ROC曲线和评分卡模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#2023年3月15日#
Nlp training
Q1: 在职期间nlp最完整的，从数据收集、模型搭建、模型部署开始说起：

Q2：地址相似度是怎么实现的？双塔模型了解过吗？文本相似度是怎么实现的吧！

Q3：transformer你有了解过吗？说说chatgpt，gpt4吧！

Data analysisi（恒安标准人寿）：
Q1：自我介绍？说说你最了解的二分类模型吧，从简单到难？

Q2：说一说random forest以及xgboost?
首先这两个方法都属于集成学习范畴，即通过多个弱基学习器得到一个强基学习器。随机森林，是bagging的集成学习，随机体现在对样本进行随机抽取如从n个样本中选取每个样本进入决策树去学习。森林体现在有b个决策树，这些树之间是互不影响的是可以并行学习的，所以这样就导致不容易overfit，但是导致对于很难的样本就不是很容易区分。

Xgboost是一种boosting的集成学习方法。即第i+1个决策树是依赖于第i个决策树的基础上，基本原理对于分对的样本较小权重，分错的样本增加权重的思想。容易过拟合。每次要学习的目标是上次学习的残差，直到残差小到满足我们的要求或其他终止条件。思想不完全信任每一个棵残差树，我们认为每棵树只学到了真理的一小部分，累加的时候只累加一小部分，只有通过多学几棵树才能弥补不足。
算法流程
该算法其实是一个简单的弱分类算法提升过程，这个过程通过不断的训练，可以提高对数据的分类能力。整个过程如下所示：