关于gensim word2vec无法训练部分词语的问题

昨天使用代码

from gensim.models import word2vec
import logging

# 主程序
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus(u"D:\\two\\dict-sen.txt")  # 加载语料
model = word2vec.Word2Vec(sentences, vector_size=300,min_count=1)  # 默认window=5

训练了中文文本数据集的词向量

部分数据集如下

焦虑症 是 一 种 发病率 高 , 并且 容易 被 人 忽视 的 疾病 , 中国 目前 焦虑症 的 发病率 大约 在 2 %- 3 % 之间 。按 总人口 13 亿 人 计算 , 焦虑症 患病 人数 大约 在 2600 万 - 3900 万 人 之间 , 并且 , 随着 生活节奏 的 加快 , 工作 压力 的 加大 。我们 认为 焦虑症 的 发病率 将 出现 上升 态势 。九 味 镇心 颗粒 总有 效率 高 , 副作用 相对 较小 , 从前 期 临床 的 情况 来看 , 总有 效率 超过 了 80 % 。公司 目前 在 包括 北京大学 第 六 医院 和 华西医院 在内 的 17 家 医院 进行 九 味 镇心 颗粒 的 四 期 临床 , 希望 在 剂型 和 适应症 范围 上 能 有所 改进 和 扩大 。同时 可以 用于 其它 类型 精神疾病 的 治疗 , 拓宽 药物 的 应用 范围 。目前 公司 主要 进行 学术 推广 , 赢得 该 领域专家 、 医生 等 行业 内 人士 的 充分 认可 , 然后 逐步 加大 销售 力度 。

结果发现大量的中文词语无法被训练。

网上搜了很久都没有发现有人提出这个问题。

所以我只能自己排查,结果我发现,这个问题主要由于数据集中句子没有换行导致。

将数据集变成下面形式就好了

焦虑症 是 一 种 发病率 高 , 并且 容易 被 人 忽视 的 疾病 , 中国 目前 焦虑症 的 发病率 大约 在 2 %- 3 % 之间 。

按 总人口 13 亿 人 计算 , 焦虑症 患病 人数 大约 在 2600 万 - 3900 万 人 之间 , 并且 , 随着 生活节奏 的 加快 , 工作 压力 的 加大 。我们 认为 焦虑症 的 发病率 将 出现 上升 态势 。

九 味 镇心 颗粒 总有 效率 高 , 副作用 相对 较小 , 从前 期 临床 的 情况 来看 , 总有 效率 超过 了 80 % 。

公司 目前 在 包括 北京大学 第 六 医院 和 华西医院 在内 的 17 家 医院 进行 九 味 镇心 颗粒 的 四 期 临床 , 希望 在 剂型 和 适应症 范围 上 能 有所 改进 和 扩大 。

同时 可以 用于 其它 类型 精神疾病 的 治疗 , 拓宽 药物 的 应用 范围 。目前 公司 主要 进行 学术 推广 , 赢得 该 领域专家 、 医生 等 行业 内 人士 的 充分 认可 , 然后 逐步 加大 销售 力度 。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值