训练分词模型

1. 训练的文件
segmentor_train.txt

文件内容,用空格分隔词

中国 进出口 银行 与 中国 银行 加强 合作
新华社 北京 十二月 二十六日 电 ( 记者 周根良 )

今日 三 大 股指 均 小幅 低开,随后 沪深指数 在 权重板块 集体 拉升 的 带动 下 小幅 上涨,但 创业板 却 出现 持续性 的 下跌。
午后 权重 跳水 导致 沪深指数 也 出现 一波杀跌,创业板 表现 却 迥异,盘中 没有 一波 拉升,今日 一度 大跌 3%。

从 盘面 上 看,今日 权重 板块 依然 独领风骚,银行,券商,地产 大幅 上涨,但 保险板块 今日 表现 不佳,保险股 涨幅 平淡。
今日 国信证券(002736),西部证券(002673)双双涨停,海通证券(600837),国元证券(000728),中信证券(600030)也有 不俗 表现。银行股 方面,仅有 一直 中信银行 (601998) 涨停。

上证指数   涨跌幅

 
2. 运行类edu.stanford.nlp.ie.crf.CRFClassifier

Eclipse Run设置

 


训练模型的参数
-prop chinese_models/edu/stanford/nlp/models/segmenter/chinese/ctb.prop
-serDictionary chinese_models/edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
-sighanCorporaDict chinese_models/edu/stanford/nlp/models/segmenter/chinese/
-trainFile segmentor_train.txt
-serializeTo chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

参数说明
prop: ctb.prop, ctb表示Chinese Penn Treebank, 宾州中文词库
serDictionary: ??
sighanCorporaDict: ??
trainFile: 你自己的训练预料文件
serializeTo: 模型存储位置
需要大于1g内存: Xmx1g


3. 生成的模型文件在以下目录
chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

4. 运行分词测试用例
edu.stanford.nlp.lxf.segmentor/SegDemo.java

转载于:https://www.cnblogs.com/xzpp/p/4722630.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值