1.通俗讲解知识点,项目实战驱动
2.当下主流解决框架,一站式搞定NLP任务
3.环境配置:选一款IDE即可,基于谷歌开源项目
4.提供所有数据与代码,追随热点持续更新
自然语言处理通用解决方案
1.需要熟悉word2vec,RNN网络模型,了解词向量如何建模
2.重点在于Transformer网络架构,BERT训练方法,实际应用
3.开源项目,都是现成的,套用进去就OK了
4.提供预训练模型,基本任务拿过来直接用都成
Transformer
要做一件什么事呢?
基本组成依旧是机器翻译模型中常见的Seq2Seq网络
输入输出都很直观,其核心架构就是中间的网络设计了
传统的RNN网络:串行
计算时有什么问题?
传统的RNN网络
self-attention机制来进行并行计算,在输入和输出都相同
输出结果是同时被计算出来的,现在基本已经取代RNN了
传统的word2vec
表示向量时有什么问题?
如果‘干哈那’是一个词
不同语境中相同的词如何表达?
预训练好的向量就永久不变了
Transformer
整体架构
1.输入如何编码?
2.输出结果是什么?
3.Attention的目的是?
4.怎样组合在一起?
encoder decoder
transformer中最核心的attention机制
1.对于输入的数据,你的关注点是什么?
2.如何才能让计算机关注到这些有价值的信息?
encoder: She is eating a green apple.
希望计算机关注到什么?
self-attention是什么?
卷积网络里面
The animal didn't cross the street because it was too tired.
The animal didn't cross the street because it was too narrow.
it 进行编码
self-attention如何计算?
thinking machine
input W权重
embeding
queries q1
Keys k1
Values v1
Q:query 要去查询的
K:key,等着被查的
V:value,实际的特征信息
x wq q
x wk k
x wv v
q和k的内积表示有多匹配
x1,x2 垂直,相关性越大的时候,内积越大