中科院 c语言 中文分词源代码下载,中文分词系统

2013-06-25更新

1.修改高频词输出时的idf到weight,原本输出的就是权重

2.高频词输出增加关键词在文章中出现的次数times

2011-12-24更新

在得到高频词时,同时返回IDF值

2011-06-26更新至2.0版

2.0更新说明

1.规范参数提交(与上一版本不再兼容)

2.json格式返回数据

3.可指定词性分词

安装说明:

1.默认安装libevent scws-1.1.7

configure

make

make install

2.解压http-scws

make

http-scws(基于scws的http协议中文分词)

软件基于scws 1.1.7版本二次开发

基于libevent进行http封装,请求更简单

功能:

1.词库为文本文件方式,增加、删除更方便

2.支持gbk与utf-8(基于scws功能)

3.运行中可修改词库,不停服务只需一个命令即可使新词库生效

4.最大150K文本提交

5.可分词、提取高频词

6.支持GET与POST方式

7.支持短词、二元、主要单字、全部单字(基于scws功能)

8.支持标点过滤(基于scws功能)

简单测试结果:

AMD 64位台式机四核CPU,程序加载词库后占用21M内存,使用10进程不间断请求请求,内存无增加,CPU使用率在30%多

此项目开源,压缩包里有源代码及编译后的程序,有特殊需要的可自行修改源程序,编译后程序的编译环境为:amd 64位 4核CPU,centos 5.5 64位系统,内核为:2.6.18-194.el5

下载地址:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值