Transformer实战(1)——词嵌入技术详解
0. 前言
在本节中,我们首先介绍词嵌入的概念,然后介绍两种实现词嵌入的方式:Word2Vec 和 GloVe,学习如何使用 Gensim 库从零开始构建语料库的词嵌入,并探索所创建的嵌入空间。
1. 词嵌入基础
词嵌入可以定义为自然语言处理 (natural language processing, NLP) 中的一组语言建模和特征学习技术,将词汇中的单词或短语映射为实数向量。
 深度学习模型与其他机器学习模型一样,通常不直接处理文本,文本需要转换为数值,将文本转换为数值的过程称为向量化。早期的向量化通常使用独热编码,每个单词用一个长度等于词汇表总数的二进制向量表示,向量中只有一个位置是1,其余位置都是0。例如,如果词汇表种有三个单词 (A, B, C),则 A 编码为 [1, 0, 0],B 编码为 [0, 1, 0],C 编码为 [0, 0, 1],独热编码的主要问题是它将每个单词都视为完全独立的,因为任何两个单词之间的相似性(通过两个单词向量的点积衡量)始终为零。
 点积是一种代数运算,作用于两个长度相同的向量  a = [ a 1 
 
                       
                       
                         
                             
                             
                           
                           
                             
                   订阅专栏 解锁全文
                订阅专栏 解锁全文
                 
       
           
                 
                 
                 
                 
                 
                
               
                 
                 
                 
                 
                
               
                 
                 扫一扫
扫一扫
                     
                     
              
             
                   4517
					4517
					
 被折叠的  条评论
		 为什么被折叠?
被折叠的  条评论
		 为什么被折叠?
		 
		  到【灌水乐园】发言
到【灌水乐园】发言                                
		 
		 
    
   
    
   
             
					 
					 
					


 
            