一.先利用word2vec训练数据得到模型
a.利用jieba对文本进行分词,并只提取词性为人名的词,去除分词长度为1和大于4的词
b.利用word2vec训练分词后的文本,并存储
c.利用训练后的模型计算相关度词
d.人工过滤一些杂项(由于分词的不准确造成)
二.利用gephi画图
a.将相似数据组织成gehpi需要的数据结构
b.利用gephi画图,将调整
三.主代码在https://github.com/jiangnanboy/similarity_words中
四.这里利用红楼梦中的人进行计算,使用'薛宝钗', '贾琏', '巧姐', '贾雨村', '凤姐', '贾宝玉', '林黛玉', '贾母', '邢夫人', '史湘云'计算与它们的相似词取前10个
五.显示图