跟着我一起背NLP算法八股文_bert篇

本文对比BERT与word2vec,解释BERT如何利用上下文生成词向量。BERT通过预训练的词嵌入、段落嵌入和位置嵌入来处理文本,能捕捉单词在不同语境中的意义变化,使其比word2vec更先进。BERT的三个嵌入层分别用于词的向量表示、句子区分和输入顺序的学习。

导读:一提到NLP算法,必须手推bert模型。当小白问起bert与word2vec之间的区别时,如何简单易懂的说明这个问题呢?接下来,我将尝试说明。
首先,word2vec将中文转变为可计算的向量,需要说明的是使用不同语料训练的word2vec不尽相同,需要看自己的任务文本和通用w2v训练使用的文本差距;bert预训练模型则是根据上下文训练出来的词向量,在同一个语料中每个token是不固定的,关于本部分细节可以查看层次softmax和霍尔曼编码相关知识。bert通过预训练,训练神经网络的隐藏层,使用隐藏层权重作为词向量,使用该模型时候就像查字典,每个token对应一个词向量,每次查完字典以后还要回到模型里再计算,这个计算就可以把整个语境计算进去,因此称为语境化的向量,这也就是大家说的bert是结合了语境了的,就是一个词在不同的句子里且在相同的bert模型中,输出的词向量是不一样的。所以说,bert比word2vec更加先进。
(1)为什么bert有3个嵌入层(Embedding),它们如何实现?
首先3个嵌入层分别为Token Embedding、Segment Embedding和Position Embedding。
首先,bert将输入文本中的每一个词(token)送入token embedding层从而将每一个词转换成词向量的形式,但不同于其它模型,bert多了2个嵌入层即segment embedding和position embedding。
首先说一下,token embedding实现过程,输入文本首先进行tokenization处理,此外,2个特殊的token会被插入tokenization的结果的开头([CLS])和([SEP]),它们为后面分类任务和划分句子对服务。
Token Embedding层将每一个wordpiece token转换成768维的向量。
其次,bert使用segment embeddings实现句子对中2个句子的区分。segment embeddings层只有2种向量表示,前一个向量是把0赋给第一个句子中的各个token,后一个向量把1赋给第二个句子的token。
第三,加入position embedding可以让bert理解,不同句子中出现的同一个单词的含义。
总结:bert能够处理最长512个token的输入序列,position embeddings layer实际上是一个大小为(512,768)的lookup表。
第一个嵌入是为了获得词的向量表示;第二个是为了区分句子对中2个句子的向量表示;第三个是为了让bert学习到输入的顺序属性。

### AIGC算法岗位常见面试题目与解答 #### 一、自我介绍及景评估 在AIGC领域,面试通常会从候选人的个人经历和技术景开始。候选人应准备好详细介绍自己的项目经验、技术栈以及对AIGC的理解和兴趣所在[^3]。 #### 二、基础概念理解 对于AIGC(人工智能生成内容),掌握其基本定义和发展趋势至关重要。例如,可以被问到:“什么是AIGC?它有哪些应用场景?” 这类问题旨在考察应聘者对该领域的宏观认知水平[^1]。 #### 三、具体技术实现细节 针对特定的技术点深入探讨也是必不可少的一环。比如,在处理自然语言处理(NLP)任务时可能遇到如下追问: - 如何构建一个基于Transformer架构的语言模型? - Transformer相比于RNN/LSTM有何优势? 这些问题不仅考验理论知识还涉及到实践操作能力,因此除了口头解释外有时还需要现场编写简单代码来证明思路正确性[^2]。 ```python import torch from transformers import AutoModelForSequenceClassification, AutoTokenizer def load_model_and_tokenizer(model_name="bert-base-uncased"): model = AutoModelForSequenceClassification.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name) return model, tokenizer ``` #### 四、解决实际问题的能力 能够利用所学的知识去分析并解决问题同样重要。假设给定一段文本数据集,要求设计一套完整的流程来进行情感分析,则需考虑预处理方法的选择、特征提取方式以及最终选用哪种机器学习/深度学习框架实施训练等环节[^4]。 #### 五、前沿研究跟踪 最后,保持对最新研究成果的关注度也是一项加分项。“最近有什么值得关注的研究成果吗?”通过分享自己了解到的新发现展示持续学习的态度有助于加深印象分。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值