SCWS 中文分词

转载 2017年01月03日 21:40:00

第一步:准备好Pscws4资料

下载 XDB 词典文件 简体中文(UTF-8)
下载PSCWS4pscws4-20081221.tar.bz2
下载规则集文件【rules.tgz

第二步:将下载的文件解压,其中的 dict.utf8.xdb 和 规则集文件 按照下图放置



第三步:将解压出来的PSCWS4类Pscws4.class.php 和 xdb_r.class.php 放到 ThinkPHP/Library/Vendor/Pscws下

第四步:在控制器里面实力类。


function get_tags($title,$num){
	import("Vendor.Pscws.Pscws4");
	$pscws = new \PSCWS4('utf8');
	$pscws->set_dict(CONF_PATH . 'etc/dict.utf8.xdb');
	$pscws->set_rule(CONF_PATH . 'etc/rules.utf8.ini');
	$pscws->set_ignore(true);
	$pscws->send_text($title);
	$words = $pscws->get_tops($num);
	$pscws->close();

	$tags = array();
	foreach ($words as $val) {
		$tags[] = $val['word'];
	}
	
	return implode(',', $tags);
}
本来到这个时候就应该做好了,实现我们需要的分词功能了,但是却出现乱码了。这个问题折腾我们技术很长时间,怎么调试都不对,什么文件的读取权限之类的,全部都试一遍都不行。最后只好看源码。最终发现问题
在PSCWS4的构造函数中。

将构造函数修改为:function __construct($charset = 'gbk') { $this->PSCWS4($charset); }

ThinkPHP整合PSCWS4到此完满结束。


http://www.sxqswl.net/show-22-107-1.html

SCWS中文分词【安装和demo】

SCWS程序安装指南(摘自官网,修改了少许bug) 操作系统:Linux(Ubuntu 12.04) 1. 取得 scws-1.2.2 的代码 wget http://www.xunsearch....
  • ziaoang
  • ziaoang
  • 2013年11月18日 21:18
  • 1046

PHP中文分词扩展 SCWS

SCWS是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻...
  • Zhao1234567890123456
  • Zhao1234567890123456
  • 2014年10月10日 23:00
  • 1644

php实现 scws中文分词的搜索

1、4个文件解压后,放到一个地方   eg:E:/wamp/scws 2、php.ini 中配置   extension = php_scws.dll scws.default.charset = ...
  • renzhenhuai
  • renzhenhuai
  • 2013年07月03日 18:29
  • 1524

中文分词插件SCWS-1.2.3 在Linux环境的安装说明(包括php扩展)

以 Linux(FreeBSD) 操作系统为例 1. 取得 scws-1.2.3 的代码 wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar...
  • hanzengyi
  • hanzengyi
  • 2016年06月22日 18:00
  • 1242

php+中文分词scws+sphinx+mysql打造千万级数据全文搜索

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果 相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成...
  • nuli888
  • nuli888
  • 2016年07月12日 21:33
  • 16228

scws中文分词组件

1. 根据您当前用的 PHP 版本,下载相应已编译好的 php_scws.dll 扩展库。 2. 将下载后的  php_scws.dll 放到 php 安装目录的    extensi...
  • neilson123456
  • neilson123456
  • 2013年11月07日 10:35
  • 730

SCWS中文分词

说先中文分词。 默认的单字切分。举个例子,有以下句子:“我们在吃饭呢”,则按字切分为[我]、[们]、[在]、[吃]、[饭]、[呢]。按这种方法分词所得到的term是最少的,因为我们所使用的汉字就...
  • zhangchaoyangsun
  • zhangchaoyangsun
  • 2013年01月05日 18:26
  • 269

几种中文分词工具

word分词  word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名...
  • u013070853
  • u013070853
  • 2015年09月24日 18:51
  • 3637

scws自定义分词库

CleverCode发现scws分词的效率挺高,研究了一下自定义分词库。 1  安装scws 安装详解:http://blog.csdn.net/clevercode/article/details/...
  • CleverCode
  • CleverCode
  • 2016年08月18日 15:31
  • 2551

Thinkphp3.2使用scws中文分词 提取关键词

thinkphp使用SCWS中文分词,提取标题关键词
  • yuewulingluan
  • yuewulingluan
  • 2015年10月26日 17:44
  • 188
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:SCWS 中文分词
举报原因:
原因补充:

(最多只允许输入30个字)