关于gensim word2vec无法训练部分词语的问题

有梦想的鱼

于 2021-08-09 14:31:41 发布

阅读量250

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_38148600/article/details/119537311

版权

昨天使用代码

from gensim.models import word2vec
import logging

# 主程序
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus(u"D:\\two\\dict-sen.txt")  # 加载语料
model = word2vec.Word2Vec(sentences, vector_size=300,min_count=1)  # 默认window=5

训练了中文文本数据集的词向量

部分数据集如下

焦虑症是一种发病率高 , 并且容易被人忽视的疾病 , 中国目前焦虑症的发病率大约在 2 %- 3 % 之间。按总人口 13 亿人计算 , 焦虑症患病人数大约在 2600 万 - 3900 万人之间 , 并且 , 随着生活节奏的加快 , 工作压力的加大。我们认为焦虑症的发病率将出现上升态势。九味镇心颗粒总有效率高 , 副作用相对较小 , 从前期临床的情况来看 , 总有效率超过了 80 % 。公司目前在包括北京大学第六医院和华西医院在内的 17 家医院进行九味镇心颗粒的四期临床 , 希望在剂型和适应症范围上能有所改进和扩大。同时可以用于其它类型精神疾病的治疗 , 拓宽药物的应用范围。目前公司主要进行学术推广 , 赢得该领域专家、医生等行业内人士的充分认可 , 然后逐步加大销售力度。

结果发现大量的中文词语无法被训练。

网上搜了很久都没有发现有人提出这个问题。

所以我只能自己排查，结果我发现，这个问题主要由于数据集中句子没有换行导致。

将数据集变成下面形式就好了

焦虑症是一种发病率高 , 并且容易被人忽视的疾病 , 中国目前焦虑症的发病率大约在 2 %- 3 % 之间。

按总人口 13 亿人计算 , 焦虑症患病人数大约在 2600 万 - 3900 万人之间 , 并且 , 随着生活节奏的加快 , 工作压力的加大。我们认为焦虑症的发病率将出现上升态势。

九味镇心颗粒总有效率高 , 副作用相对较小 , 从前期临床的情况来看 , 总有效率超过了 80 % 。

公司目前在包括北京大学第六医院和华西医院在内的 17 家医院进行九味镇心颗粒的四期临床 , 希望在剂型和适应症范围上能有所改进和扩大。

同时可以用于其它类型精神疾病的治疗 , 拓宽药物的应用范围。目前公司主要进行学术推广 , 赢得该领域专家、医生等行业内人士的充分认可 , 然后逐步加大销售力度。

有梦想的鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于gensim word2vec无法训练部分词语的问题

昨天使用代码from gensim.models import word2vecimport logging# 主程序logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)sentences = word2vec.Text8Corpus(u"D:\\two\\dict-sen.txt") # 加载语料model = word2vec.Word2Vec(sente
复制链接

扫一扫