基于HTTP协议的开源中文分词系统：HTTPCWS 1.0.0

最新推荐文章于 2024-10-30 15:37:42 发布

weixin_34362991

最新推荐文章于 2024-10-30 15:37:42 发布

阅读量100

点赞数

文章标签： php 人工智能

原文链接：http://blog.51cto.com/jinliang/1586188

版权

发布版本：
　　httpcws 1.0.0 （最新版本：2009-08-10发布）

　　程序网址：http://code.google.com/p/httpcws

　　安装使用手册：http://blog.zyan.cc/httpcws_v100/

　　下载地址（32位版）：http://httpcws.googlecode.com/files/httpcws-1.0.0-i386-bin.tar.gz

　　下载地址（64位版）：http://httpcws.googlecode.com/files/httpcws-1.0.0-x86_64-bin.tar.gz

　　中文分词在线演示：http://blog.zyan.cc/demo/httpcws/

　　PHP演示程序下载：http://blog.zyan.cc/demo/httpcws/httpcws-php-demo.zip

httpcws 中文简介
　　1、什么是 httpcws ？
　　HTTPCWS 是一款基于HTTP协议的开源中文分词系统，目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理，得出分词结果。HTTPCWS 将取代本人之前开发的 PHPCWS 中文分词扩展。

　　ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System）是×××计算技术研究所在多年研究工作积累的基础上，基于多层隐马模型研制出的汉语词法分析系统，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。ICTCLAS经过五年精心打造，内核升级6次，目前已经升级到了ICTCLAS3.0，分词精度98.45%，各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名，是当前世界上最好的汉语词法分析器。

　　ICTCLAS 3.0 商业版是收费的，而免费提供的 ICTCLAS 3.0 共享版不开源，词库是根据人民日报一个月的语料得出的，很多词语不存在。所以本人补充的一个19万条词语的自定义词库，对ICTCLAS分词结果进行合并处理，输出最终分词结果。

　　由于 ICTCLAS 3.0 2009 共享版只支持GBK编码，因此，如果是UTF-8编码的字符串，可以先用iconv函数转换成GBK编码，再用httpcws进行分词处理，最后转换回UTF-8编码。

　　HTTPCWS 软件自身（包括httpcws.cpp源文件、dict/httpcws_dict.txt自定义词库）采用NewBSD开源协议，可以自由修改。HTTPCWS 使用的 ICTCLAS 共享版 API 及 dict/Data/ 目录内的语料库，版权及著作权归×××计算技术研究所、ictclas.org所有，使用需遵循其相关协议。

3、httpcws 中文分词下载安装

32位版：

cd /usr/local/
wget http://httpcws.googlecode.com/files/httpcws-1.0.0-i386-bin.tar.gz
tar zxvf httpcws-1.0.0-i386-bin.tar.gz
rm -f httpcws-1.0.0-i386-bin.tar.gz
cd httpcws-1.0.0-i386-bin/
ulimit -SHn 65535
/usr/local/httpcws-1.0.0-i386-bin/httpcws -d -x /usr/local/httpcws-1.0.0-i386-bin/dict/

64位版：

cd /usr/local/
wget http://httpcws.googlecode.com/files/httpcws-1.0.0-x86_64-bin.tar.gz
tar zxvf httpcws-1.0.0-x86_64-bin.tar.gz
rm -f httpcws-1.0.0-x86_64-bin.tar.gz
cd httpcws-1.0.0-x86_64-bin/
ulimit -SHn 65535
/usr/local/httpcws-1.0.0-x86_64-bin/httpcws -d -x /usr/local/httpcws-1.0.0-x86_64-bin/dict/

启动参数

4、PHP 调用 HTTPCWS 示例：

①、对GBK编码的字符串进行中文分词处理（HTTP POST方式）：

<?php
@header('Content-Type: text/html; charset=gb2312');
$text = "有人的地方就有江湖";
$text = urlencode($text);
$opts = array(
  'http'=>array(
    'method'=>"POST",
    'header'=>"Content-type: application/x-www-form-urlencoded\r\n".
              "Content-length:".strlen($data)."\r\n" .
              "Cookie: foo=bar\r\n" .
              "\r\n",
    'content' => $text,
  )
);
$context = stream_context_create($opts);
$result = file_get_contents("http://127.0.0.1:1985", false, $context);
echo $result;

//分词之后为字符串可通过explode以空格分割为数组

$arr = explode(' ', $result);

var_dump($arr);

②、对UTF-8编码的字符串进行中文分词处理（HTTP POST方式）：

<?php
@header('Content-Type: text/html; charset=utf-8');
$text = "有人的地方就有江湖";
$text = iconv("UTF-8", "GBK//IGNORE", $text);
$text = urlencode($text);
$opts = array(
  'http'=>array(
    'method'=>"POST",
    'header'=>"Content-type: application/x-www-form-urlencoded\r\n".
              "Content-length:".strlen($data)."\r\n" .
              "Cookie: foo=bar\r\n" .
              "\r\n",
    'content' => $text,
  )
);
$context = stream_context_create($opts);
$result = file_get_contents("http://127.0.0.1:1985", false, $context);
$result = iconv("GBK", "UTF-8//IGNORE", $result);
echo $result;

//分词之后为字符串可通过explode以空格分割为数组

$arr = explode(' ', $result);

var_dump($arr);

③、对GBK编码的字符串进行中文分词处理（HTTP GET方式）：

<?php
@header('Content-Type: text/html; charset=gb2312');
$text = "有人的地方就有江湖";
$text = urlencode($text);
$result = file_get_contents("http://127.0.0.1:1985/?w=".$text);
echo $result;

//分词之后为字符串可通过explode以空格分割为数组

$arr = explode(' ', $result);

var_dump($arr);

④、对UTF-8编码的字符串进行中文分词处理（HTTP GET方式）：

<?php
@header('Content-Type: text/html; charset=utf-8');
$text = "有人的地方就有江湖";
$text = iconv("UTF-8", "GBK//IGNORE", $text);
$text = urlencode($text);
$result = file_get_contents("http://127.0.0.1:1985/?w=".$text);
$result = iconv("GBK", "UTF-8//IGNORE", $result);
echo $result;

//分词之后为字符串可通过explode以空格分割为数组

$arr = explode(' ', $result);

var_dump($arr);

5、自定义词库
修改dict/httpcws_dict.txt文件，可以自由增加自己需要的词语。重启httpcws即可生效。

原地址: http://zyan.cc/httpcws_v100/#entrymore

附件在个人首页我的资料

转载于:https://blog.51cto.com/jinliang/1586188