--读冯志伟老师《词向量及其在自然语言处理中的应用》
-
词向量的概念:来源于语言学中“价值”“分布”等概念
➡ “价值”:语言是一个系统,系统中的所有要素形成一个整体。语言符号是系统的组成要素,具有特定的“价值”。在语言,每项要素都由它同其他要素的位置、对立、相互关系才能有它的价值。在语言的符号系统中,各个要素按一定规则相互保持平衡。价值的概念类似于同一性的概念,两要素若授予相同的价值,就宣布是同一个东西。
词的价值不是由其标志的客观对象的实体来确定的,而是由其跟其他词的关系及其在该语言中的地位来确定的。“语言是形式而不是实体”。
➡ “分布”:语素的意义用该语素与在其上下文中所有其他语素分布的条件概率来决定。“一个语素在语言学意义可定义为该语素与上下文所有其他语素出现的条件概率的集合”。“一个单位的分布就是它所出现的全部环境的总和,也就是这个单位所有的(不同的)位置(或者出现的场合)的总和,这个单位出现的这些位置是同其他单位的出现有关系的”。
分布定义中的“位置”包括周围的“环境”,“话语里某个单位的环境或者位置是由它相邻近的单位组成的”。
若某些语素出现的环境相同,他们的分布相同,就可把他们分为一类,称“形式类”。分布分析法是一种以寻找同类环境为原则的归类法。“观词伴而知词义”
同义词:若A\B具有几乎相同的环境,具有类似的上下文单词,就说是同义词。
一个单词的意义可以用欧几里得空间中的一个点来建模,两个单词之间的相似性可以用欧几里得空间里这些点的距离来建模。
➡ “词向量”&