Embedding字面意思:嵌入
官方定义:Embedding是离散实例连续化的映射(了解)
简单来说,把现实事物转为计算机可以处理的向量
介绍现在主流的 Embedding 技术,主要分三大块:(了解一下即可)
经典的矩阵分解方法: SVD 方法等
基于内容的 embedding 方法:涉及到 NLP 相关的文本 embedidng 方法,包括静态向量 embedding(如 word2vec、GloVe 和 FastText)和动态向量 embedding(如 ELMo、GPT 和 BERT) 简单说吧,静态向量就是他是死的,固定的,而动态向量是活的,他可以解决一词多义问题,是结合上下文的,一个词有多种向量表示
基于 Graph 的 embedding 方法:包括浅层图模型(如 DeepWalk、Node2vec 和 Metapath2vec)和深度图模型(如基于谱的 GCN 和基于空间的 GraphSAGE)
Onehot
有多少个字,就得有多少维向量,假如有1万字,那么每个字向量就是1万维(常用的字可能不多,几千个左右,但是按照词的概念来看,常用的词可能就有十几万了)。于是就出来了连续向量表示,比如用100维的实数向量来表示一个字,这样就大大降低了维度,降低了过拟合的风险,等等。初学者是这样说的,不少专家也是这样说的。但这是错误的