匹配联行号

1、使用 word分词 进行分词:


1.1、下载word:

         https://github.com/ysc/word

1.2、word分词器的使用:

        1.2.1、参考:

          https://my.oschina.net/apdplat/blog/228619
          
List<Word> words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者");
List<Word> words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者");
System.out.println(words);

仅引入包:word-1.3.1.jar 是不够的,会出现错误:NoClassDefFoundError: org/slf4j/LoggerFactory

还需要引入下面的包、可以解决上面的问题:
slf4j-api-1.7.22.jar 、 slf4j-log4j12-1.7.22.jar 、 log4j-1.2.17.jar

       1.2.2、引入 log 包后会出现包日志输出,可以屏蔽

          log4j:WARN  


训练词向量命令:

nohup ./word2vec -train ./corpus/news_tensite_corpus.dat.seg -output vectors.r -cbow 1 -size 200 -window 8 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 0 > train.log 2>&1 &

-window 8:窗口大小为8
-cbow 1:采用cbow算法
-binary 0:0训练结果不采用二进制存储

         

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值