ChineseEmbedding
Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量.
项目地址:https://github.com/liuhuanyong
项目简介
目前不同于one-hot表示的稠密向量在常见的NLP任务中运用的越来越广,而目前开源的向量资源还比较单一,只有中文和其他语言的词向量.本项目想弥补这一缺陷.
本项目认为
1,NLP中的各种语言单元形态都可以进行向量表示.
2,稠密低维的向量较one-hot这种sparse向量更具备语义信息.
3,中文信息处理中可以进行词向量表示的语言单位包括:
- 字符(单个汉字)
- 词语(词或词组)
- 汉语拼音
- 汉语词性
- 汉语词语之间的依存关系
本项目要完成的任务
运用词向量建模方法,分别完成以上5种形态的词向量训练, 并检验效果.
训练语料
本项目将使用中文维基百科(zhiwiki)作为训练语料来源.
训练方法
- 基于skigram的方法
对字向量,拼音向量,词向量,词性向量采用此类方法,分别设定词向量的维度及其他超参数 - 基于上下文共现与PCA降维的方法
对依存向量采用此类方法
测试方法
本测试较为简单,直接使用语义最近的语言单元作为检验
代码目录
train_vector.py: 向量训练脚本
test_vector.py: 向量测试脚本
结果展示
向量名称 | 向量含义 | 词数 | 维度 | 例子 |
---|---|---|---|---|
de_vec_10 | 依存关系向量 |