CWE和SCWE模型介绍
引入
CWE和SCWE模型都是基于word2vec模型的,不过这两个模型是专门训练中文词向量的,且将汉字的语义信息也融入到模型的训练中。
在中文中,有些词如“青蛙”,构成该词的字也能够提供丰富的语义信息,像“青”就是用来形容“蛙”;而另有些词,如“沙发”,“沙”和“发”对“沙发”来说就没有任何语义,原因在于“沙发”是个音译词。类似的现象有很多。引入几个概念,定义语素为语言中的最小意义单位;词为语言中的最小表现单位。因此中文中的词大致可以分为两类,其一是单语素词
,如“沙发”等音译词;其二是多语素词
,由多个语素构成的词,如“青蛙”
模型介绍
CWE和SCWE模型都是基于CBOW模型的,在输入层考虑到词内字的语义信息。他们之间的主要区别在于CWE模型认为词内字对词的贡献是一样的,而SCWE模型则根据字与词的相似度赋予不同的权重。模型如下图: