SCWS分词库自定义


最近因为要进行搜索功能的实现,而实现搜索给用户一个更好的体验就需要对输入的内容进行分词,所以静下心来,好好看看分词的知识
并记录下来,还是很有必要的。

今天主要做了写关于SCWS的分词的词库的一些了解学习。
首先就是需要知道SCWS这个分词的词库是什么格式的,才能进行自定义词库,并生成词库文件。
1.词库的格式
# WORD    TF    IDF    ATTR
关键词   10  10  词的属性

2.使用gen-scws-dict生成词库xdb
/usr/local/scws/bin/gen-scws-dict -c utf8 -i user.txt -o /usr/local/scws/etc/dict.user.xdb

此处的user.txt可以存贮的时候使用utf8编码。

 

导出


/usr/local/php5/bin/php dump_xdb_file.php /usr/local/scws/etc/dict.gpk.xdb  dict.txt


导入
/usr/local/php5/bin/php make_xdb_file.php /usr/local/scws/dict.utf8.xdb dict.txt

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值