[NLP自然语言处理]谷歌BERT模型深度解析

BERT模型代码已经发布,可以在我的github: NLP-BERT--Python3.6-pytorch 中下载,请记得start哦


目录

一、前言

二、如何理解BERT模型

三、BERT模型解析

      论文的核心:详解BERT模型架构

      关键创新:预训练任务

      实验结果

四、BERT模型的影响

对BERT模型的观点

参考文献


一、前言

最近谷歌搞了个大新闻,公司AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。可以预见的是,BERT将为NLP带来里程碑式的改变,也是NLP领域近期最重要的进展。

Rank

谷歌团队的Thang Luong直接定义:BERT模型开启了NLP的新时代!

从现在的大趋势来看,使用某种模型预训练一个语言模型看起来是一种比较靠谱的方法。从之前AI2的 ELMo,到 OpenAI的fine-tune transformer,再到Google的这个BERT,全都是对预训练的语言模型的应用。

BERT这个模型与其它两个不同的是

  1. 它在训练双向语言模型时以减小的概率把少量的词替成了Mask或者另一个随机的词。我个人感觉这个目的在于使模型被迫增加对上下文的记忆。至于这个概率,我猜是Jacob拍脑袋随便设的。
  2. 增加了一个预测下一句的loss。这个看起来就比较新奇了。

BERT模型具有以下两个特点:

第一,是这个模型非常的深,12层,并不宽(wide),中间层只有1024,而之前的Transformer模型中间层有2048。这似乎又印证了计算机图像处理的一个观点——深而窄 比 浅而宽 的模型更好。

第二,MLM(Masked Language Model),同时利用左侧和右侧的词语,这个在ELMo上已经出现了,绝对不是原创。其次,对于Mask(遮挡)在语言模型上的应用,已经被Ziang Xie提出了(我很有幸的也参与到了这篇论文中):[1703.02573] Data Noising as Smoothing in Neural Network Language Models。这也是篇巨星云集的论文:Sida Wang,Jiwei Li(香侬科技的创始人兼CEO兼史上发文最多的NLP学者),Andrew Ng,Dan Jurafsky都是Coauthor。但很可惜的是他们没有关注到这篇论文。用这篇论文的方法去做Masking,相信BRET的能力说不定还会有提升。

二、如何理解BERT模型

[1] BERT 要解决什么问题?

通常情况 transformer 模型有很多参数需要训练。譬如 BERT BASE 模型: L=12, H=768, A=12, 需要训练的模型参数总数是 12 * 768 * 12 = 110M。这么多参数需要训练,自然需要海量的训练语料。如果全部用人力标注的办法,来制作训练数据,人力成本太大。

受《A Neural Probabilistic Language Model》论文的启发,BERT 也用 unsupervised 的办法,来训练 transformer 模型。神经概率语言模型这篇论文,主要讲了两件事儿,1. 能否用数值向量(word vector)来表达自然语言词汇的语义?2. 如何给每个词汇,找到恰当的数值向量?

Transformer

这篇论文写得非常精彩,深入浅出,要言不烦,而且面面俱到。经典论文,值得反复咀嚼。很多同行朋友都熟悉这篇论文,内容不重复说了。常用的中文汉字有 3500 个,这些字组合成词汇,中文词汇数量高达 50 万个。假如词向量的维度是 512,那么语言模型的参数数量,至少是 512 * 50万 = 256M

模型参数数量这么大,必然需要海量的训练语料。从哪里收集这些海量的训练语料?《A Neural Probabilistic Language Model》这篇论文说,每一篇文章,天生是训练语料。难道不需要人工标注吗?回答,不需要。

我们经常说,“说话不要颠三倒四,要通顺,要连贯”,意思是上下文的词汇,应该具有语义的连贯性。基于自然语言的连贯性,语言模型根据前文的词,预测下一个将出现的词。如果语言模型的参数正确,如果每个词的词向量设置正确,那么语言模型的预测,就应该比较准确。天下文章,数不胜数,所以训练数据,取之不尽用之不竭。

深度学习四大要素,1. 训练数据、2. 模型、3. 算力、4. 应用。训练数据有了,接下去的问题是模型。

[2] BERT 的五个关键词 Pre-training、Deep、Bidirectional、Transformer、Language Understanding 分别是什么意思?

《A Neural Probabilistic Language Model》这篇论文讲的 Language Model,严格讲是语言生成模型(Language Generative Model),预测语句中下一个将会出现的词汇。语言生成模型能不能直接移用到其它 NLP 问题上去?

譬如,淘宝上有很多用户评论,能否把每一条用户转换成评分?-2、-1、0、1、2,其中 -2 是极差,+2 是极好。假如有这样一条用

<think>好的,我现在需要帮助用户查找关于Traefik插件的使用说明、配置和示例。首先,用户提到他们想了解与Traefik插件相关的信息,特别是使用说明、配置和示例。根据用户提供的引用内容,我需要整理这些信息,并按照用户的要求进行结构化回答。 首先,我要回顾用户提供的引用内容。引用[1]提到了在静态配置文件中添加插件的配置示例,引用[3]和[5]介绍了GitHub上的示例插件demo,说明插件是通过Yaegi动态执行的,并提到了开发指南。引用[4]提到了使用Helm chart部署Traefik,这可能与插件的安装有关。引用[2]可能是一个Terraform的示例,但具体内容不明确,暂时可能用不上。 接下来,我需要确定用户的需求:他们需要知道如何配置和使用Traefik插件,包括具体的步骤和示例。根据引用内容,可以分步骤说明配置方法,比如静态配置文件中的设置,以及插件的开发或使用现有插件的步骤。可能还需要提到动态加载和注意事项,如实验性功能、版本兼容性等。 需要确保回答符合用户的要求,结构清晰,分步骤说明。同时,要引用提供的引用内容,正确标注引用标识。例如,引用[1]中的配置示例,引用[3]关于GitHub仓库的信息,引用[4]提到的Helm安装方法,以及引用[5]的项目介绍部分。 另外,用户可能对插件的实际应用场景和如何开发自己的插件感兴趣,所以可能需要包含这些信息。还要生成相关问题,如如何开发自定义插件、动态加载机制、性能影响等。 需要注意的是,用户提供的引用中有部分内容可能不直接相关,比如引用[2]的Terraform示例,但如果没有更相关的信息,可以暂时忽略。确保回答中的引用准确对应到相关的部分。 总结回答结构: 1. 插件配置步骤,包括静态配置文件示例和Helm安装。 2. 使用现有插件的步骤,比如demo插件的安装。 3. 开发自定义插件的基本流程。 4. 注意事项,如实验性功能、版本要求等。 5. 相关问题部分,生成相关问题。 现在需要将这些信息整合成自然的中文回答,正确引用来源,并确保LaTeX格式符合要求,虽然用户的问题可能不涉及数学公式,但如果有变量或代码,需要使用正确的格式。例如,配置示例中的代码块需要用反引号包裹,并注明语言类型。 检查是否有遗漏的信息,比如引用[3]提到的Yaegi解释器,可能需要解释动态加载机制。同时,引用[5]提到插件是扩展Traefik功能的强大工具,可以用于流量管理,这部分可以在应用场景中提及。 最后,生成的相关问题需要与Traefik插件的使用、开发、配置相关,确保问题有针对性,能够引导用户进一步探索。</think>### Traefik 插件使用说明与配置示例 #### 1. 插件配置基础步骤 Traefik 插件通过静态配置文件或动态加载实现。以下为静态配置示例(需在 Traefik 的 YAML 配置文件中添加): ```yaml experimental: localPlugins: example: moduleName: github.com/traefik/plugindemo # 插件模块路径[^1] ``` 此配置声明了一个名为 `example` 的本地插件,指向 GitHub 上的示例仓库[^3]。 若使用 Helm 安装 Traefik,需在 `values.yaml` 中启用插件支持: ```yaml experimental: plugins: enabled: true # 启用插件功能[^4] ``` #### 2. 使用现有插件(以 demo 插件为例) 1. **安装插件** 通过修改 Traefik 部署配置,将插件代码编译到 Traefik 二进制文件中,或通过动态加载(需 Yaegi 支持)。 2. **配置路由规则** 在 `IngressRoute` 中引用插件: ```yaml apiVersion: traefik.io/v1alpha1 kind: Middleware metadata: name: demo-plugin spec: plugin: example: # 插件名称 headerName: "X-Custom-Header" headerValue: "Hello from Plugin" ``` #### 3. 开发自定义插件 1. **代码结构** 遵循 Traefik 插件接口规范,实现 `New` 初始化方法和 `Handle` 请求处理逻辑[^3]。 2. **动态加载** 利用 Yaegi 解释器实时加载插件(无需重启 Traefik): ```go // 示例插件逻辑 func New(ctx context.Context, config *Configuration) (http.Handler, error) { return &demoPlugin{config}, nil } ``` #### 4. 注意事项 - **实验性功能**:插件功能标记为实验性,需在配置中显式启用[^4]。 - **版本兼容性**:确认 Traefik 版本支持插件(建议 v2.3+)[^4]。 - **安全限制**:动态加载插件需注意代码安全性,建议审核第三方插件[^5]。 --- ###
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

图灵的猫.

小二,给客官上酒!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值