预训练词向量文件不存在
cc.en.300.bin为 157 种语言分发预训练的词向量, Common Crawl 和 Wikipedia 使用 fastText 这些模型使用具有位置权重的 CBOW 进行训练,维度为 300,字符 n-gram 长度为 5,窗口大小为 5 和 10 个负数。 我们还分发了三个新词类比数据集,分别用于法语、印地语和波兰语。
先导入fasttext,下载 cc.en.300.bin既可,约4G多的语言分发预训练的词向量。
pip install fasttext
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.en.300.bin.gz
解压bin.gz文件到当前文件夹下,-k保留原件 (–keep):
!gzip -k cc.en.300.bin.gz