没办法,模型精度还是不够,只能暂时弃用text2vec。然后我在github上发现了中文文本处理的老大哥:bert
python使用bert可以参考这篇博客:博客
但是篇博客又出现了上一节的问题:
- We couldn't connect to 'https://huggingface.co'
具体解决办法可以参考上一节的。 事实证明还得是老大哥好使,运行的效果确实比之前的要好很多
- bert-wmm
这是bert的改进算法,但是目前据他们介绍另一个新模型:RoBERTa-wwm-ext-large,效果是最优的,因此之后我将更新如何下载使用RoBERTa-wwm-ext-large 。具体的配置文件可以见:这里
至于如何使用这个模型可以参考下面这篇博客: