在spaCy V3.0中用自训练词向量来训练文本分类模型
前文《spaCy V3.0 文本分类模型训练、评估、打包及数据预处理》中采用的是spaCy提供的预训练词向量—“zh_core_web_lg”。《使用Gensim在专业领域、高相关性、小语料库上训练词向量》在自定义语料上训练出了自己的词向量。
如何使用自己训练的词向量来训练文本分类模型?
1 保存并转换词向量
model = FastText.load('fasttext.bin')
model.wv.save_word2vec_format('fasttext_100.txt')
2 将fasttext_100.txt压缩为vectors.zip文件,并拷贝到文本分类工程的assets目录下
3 修改文本分类工程的project.yml文件:
commands:
- name: init-vectors
help: Download vectors and convert to model
script:- “python -m spacy init vectors zh assets/vectors.zip assets/zh_fasttext_vectors”
deps: - “assets/vectors.zip”
outputs_no_cache: - “assets/zh_fasttext_vectors”
- “python -m spacy init vectors zh assets/vectors.zip assets/zh_fasttext_vectors”
4 在文本分类工程目录的命令行下执行:
spacy project run init-vectors
结果:
================================ init-vector