昨天使用代码
from gensim.models import word2vec
import logging
# 主程序
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus(u"D:\\two\\dict-sen.txt") # 加载语料
model = word2vec.Word2Vec(sentences, vector_size=300,min_count=1) # 默认window=5
训练了中文文本数据集的词向量
部分数据集如下
焦虑症 是 一 种 发病率 高 , 并且 容易 被 人 忽视 的 疾病 , 中国 目前 焦虑症 的 发病率 大约 在 2 %- 3 % 之间 。按 总人口 13 亿 人 计算 , 焦虑症 患病 人数 大约 在 2600 万 - 3900 万 人 之间 , 并且 , 随着 生活节奏 的 加快 , 工作 压力 的 加大 。我们 认为 焦虑症 的 发病率 将 出现 上升 态势 。九 味 镇心 颗粒 总有 效率 高 , 副作用 相对 较小 , 从前 期 临床 的 情况 来看 , 总有 效率 超过 了 80 % 。公司 目前 在 包括 北京大学 第 六 医院 和 华西医院 在内 的 17 家 医院 进行 九 味 镇心 颗粒 的 四 期 临床 , 希望 在 剂型 和 适应症 范围 上 能 有所 改进 和 扩大 。同时 可以 用于 其它 类型 精神疾病 的 治疗 , 拓宽 药物 的 应用 范围 。目前 公司 主要 进行 学术 推广 , 赢得 该 领域专家 、 医生 等 行业 内 人士 的 充分 认可 , 然后 逐步 加大 销售 力度 。
结果发现大量的中文词语无法被训练。
网上搜了很久都没有发现有人提出这个问题。
所以我只能自己排查,结果我发现,这个问题主要由于数据集中句子没有换行导致。
将数据集变成下面形式就好了
焦虑症 是 一 种 发病率 高 , 并且 容易 被 人 忽视 的 疾病 , 中国 目前 焦虑症 的 发病率 大约 在 2 %- 3 % 之间 。
按 总人口 13 亿 人 计算 , 焦虑症 患病 人数 大约 在 2600 万 - 3900 万 人 之间 , 并且 , 随着 生活节奏 的 加快 , 工作 压力 的 加大 。我们 认为 焦虑症 的 发病率 将 出现 上升 态势 。
九 味 镇心 颗粒 总有 效率 高 , 副作用 相对 较小 , 从前 期 临床 的 情况 来看 , 总有 效率 超过 了 80 % 。
公司 目前 在 包括 北京大学 第 六 医院 和 华西医院 在内 的 17 家 医院 进行 九 味 镇心 颗粒 的 四 期 临床 , 希望 在 剂型 和 适应症 范围 上 能 有所 改进 和 扩大 。
同时 可以 用于 其它 类型 精神疾病 的 治疗 , 拓宽 药物 的 应用 范围 。目前 公司 主要 进行 学术 推广 , 赢得 该 领域专家 、 医生 等 行业 内 人士 的 充分 认可 , 然后 逐步 加大 销售 力度 。