SCWS 中文分词

转载 2017年01月03日 21:40:00

第一步:准备好Pscws4资料

下载 XDB 词典文件 简体中文(UTF-8)
下载PSCWS4pscws4-20081221.tar.bz2
下载规则集文件【rules.tgz

第二步:将下载的文件解压,其中的 dict.utf8.xdb 和 规则集文件 按照下图放置



第三步:将解压出来的PSCWS4类Pscws4.class.php 和 xdb_r.class.php 放到 ThinkPHP/Library/Vendor/Pscws下

第四步:在控制器里面实力类。


function get_tags($title,$num){
	import("Vendor.Pscws.Pscws4");
	$pscws = new \PSCWS4('utf8');
	$pscws->set_dict(CONF_PATH . 'etc/dict.utf8.xdb');
	$pscws->set_rule(CONF_PATH . 'etc/rules.utf8.ini');
	$pscws->set_ignore(true);
	$pscws->send_text($title);
	$words = $pscws->get_tops($num);
	$pscws->close();

	$tags = array();
	foreach ($words as $val) {
		$tags[] = $val['word'];
	}
	
	return implode(',', $tags);
}
本来到这个时候就应该做好了,实现我们需要的分词功能了,但是却出现乱码了。这个问题折腾我们技术很长时间,怎么调试都不对,什么文件的读取权限之类的,全部都试一遍都不行。最后只好看源码。最终发现问题
在PSCWS4的构造函数中。

将构造函数修改为:function __construct($charset = 'gbk') { $this->PSCWS4($charset); }

ThinkPHP整合PSCWS4到此完满结束。


http://www.sxqswl.net/show-22-107-1.html

举报

相关文章推荐

Laravel 以ElasticSearch的方式使用scout

Laravel5.3已经发布了,这次版本多了一个官方工具包:scout。这个包的作用就是帮助大家更好的将全文检索工具和项目更好的结合,让开发者使用起来更方便。但是我发现了一个问题:Laravel官方文...

PHP中文分词

[php] view plaincopyprint?    /**   * 中文分词处理方法   *+-----------------------------...

我是如何成为一名python大咖的?

人生苦短,都说必须python,那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..

php+中文分词scws+sphinx+mysql打造千万级数据全文搜索

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果 相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成...

SCWS中文分词【安装和demo】

SCWS程序安装指南(摘自官网,修改了少许bug) 操作系统:Linux(Ubuntu 12.04) 1. 取得 scws-1.2.2 的代码 wget http://www.xunsearch....

Thinkphp3.2使用scws中文分词 提取关键词

thinkphp使用SCWS中文分词,提取标题关键词

php实现 scws中文分词的搜索

1、4个文件解压后,放到一个地方   eg:E:/wamp/scws 2、php.ini 中配置   extension = php_scws.dll scws.default.charset = ...

NLP中的中文分词技术

随 着需求的变化和技术的发展,互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域,近几年,在搜索引擎、数据挖掘、推荐系统等应用方面,都向前 迈出了坚实的步伐。自然语言处理领域涉及的技术非常多...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)