命令:./word2vec -train src.txt -output dst.vec -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 2 -binary 1
虚拟机(Linux kafka 2.6.32-71.el6.i686 #1 SMP Fri Nov 12 04:17:17 GMT 2010 i686 i686 i386 GNU/Linux)、CPU(2核)、MEM(2G)、DISK(30G),296兆语料(107561条)耗时5小时。
Enter word or sentence (EXIT to break): 装修
Word: 装修 Position in vocabulary: 951
Word Cosine distance
------------------------------------------------------------------------
装饰 0.731105
修缮 0.637651
室内 0.605636
幕墙 0.603140
改造 0.582827
用房 0.578895
展厅 0.565073
智能化 0.561778
餐厅 0.548683
房屋 0.545347
人防 0.536202
布展 0.528918
门窗 0.508925
卫生间 0.508035
屋面 0.507124
楼顶 0.500727
平改坡 0.500140
业务楼 0.498720
土建 0.498519
教学楼 0.496684
地下室 0.491081
宿舍楼 0.488782
室外 0.483385
粉刷 0.474570
活动室 0.471253
阅览室 0.469641
暖气 0.468239
住院部 0.466538
宁海校 0.464838
Enter word or sentence (EXIT to break): 东 西 南
Word: 东 Position in vocabulary: 240
Word: 西 Position in vocabulary: 256
Word: 南 Position in vocabulary: 292
Word Cosine distance
------------------------------------------------------------------------
北 0.784407