最近因为要进行搜索功能的实现,而实现搜索给用户一个更好的体验就需要对输入的内容进行分词,所以静下心来,好好看看分词的知识
并记录下来,还是很有必要的。
今天主要做了写关于SCWS的分词的词库的一些了解学习。
首先就是需要知道SCWS这个分词的词库是什么格式的,才能进行自定义词库,并生成词库文件。
1.词库的格式
# WORD TF IDF ATTR
关键词 10 10 词的属性
2.使用gen-scws-dict生成词库xdb
/usr/local/scws/bin/gen-scws-dict -c utf8 -i user.txt -o /usr/local/scws/etc/dict.user.xdb
此处的user.txt可以存贮的时候使用utf8编码。
导出
/usr/local/php5/bin/php dump_xdb_file.php /usr/local/scws/etc/dict.gpk.xdb dict.txt
导入
/usr/local/php5/bin/php make_xdb_file.php /usr/local/scws/dict.utf8.xdb dict.txt