SCWS 中文分词

转载 2017年01月03日 21:40:00

第一步:准备好Pscws4资料

下载 XDB 词典文件 简体中文(UTF-8)
下载PSCWS4pscws4-20081221.tar.bz2
下载规则集文件【rules.tgz

第二步:将下载的文件解压,其中的 dict.utf8.xdb 和 规则集文件 按照下图放置



第三步:将解压出来的PSCWS4类Pscws4.class.php 和 xdb_r.class.php 放到 ThinkPHP/Library/Vendor/Pscws下

第四步:在控制器里面实力类。


function get_tags($title,$num){
	import("Vendor.Pscws.Pscws4");
	$pscws = new \PSCWS4('utf8');
	$pscws->set_dict(CONF_PATH . 'etc/dict.utf8.xdb');
	$pscws->set_rule(CONF_PATH . 'etc/rules.utf8.ini');
	$pscws->set_ignore(true);
	$pscws->send_text($title);
	$words = $pscws->get_tops($num);
	$pscws->close();

	$tags = array();
	foreach ($words as $val) {
		$tags[] = $val['word'];
	}
	
	return implode(',', $tags);
}
本来到这个时候就应该做好了,实现我们需要的分词功能了,但是却出现乱码了。这个问题折腾我们技术很长时间,怎么调试都不对,什么文件的读取权限之类的,全部都试一遍都不行。最后只好看源码。最终发现问题
在PSCWS4的构造函数中。

将构造函数修改为:function __construct($charset = 'gbk') { $this->PSCWS4($charset); }

ThinkPHP整合PSCWS4到此完满结束。


http://www.sxqswl.net/show-22-107-1.html

相关文章推荐

Laravel 以ElasticSearch的方式使用scout

Laravel5.3已经发布了,这次版本多了一个官方工具包:scout。这个包的作用就是帮助大家更好的将全文检索工具和项目更好的结合,让开发者使用起来更方便。但是我发现了一个问题:Laravel官方文...

sphinx中文分词检索 如何让分词的精确度更高

大家都知道sphinx自带的一些匹配模式。主要有 setMatchMode: SPH_MATCH_ALL匹配所有查询词(默认模式) SPH_MATCH_ANY匹配查询词中的任意一个 ...

SCWS 中文分词 php

  • 2017年04月03日 10:21
  • 12.19MB
  • 下载

SCWS简体中文分词辞典txt格式

  • 2008年03月15日 10:18
  • 5.55MB
  • 下载

Thinkphp3.2使用scws中文分词 提取关键词

thinkphp使用SCWS中文分词,提取标题关键词

php+中文分词scws+sphinx+mysql打造千万级数据全文搜索

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果 相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成...
  • nuli888
  • nuli888
  • 2016年07月12日 21:33
  • 14087

SCWS中文分词【安装和demo】

SCWS程序安装指南(摘自官网,修改了少许bug) 操作系统:Linux(Ubuntu 12.04) 1. 取得 scws-1.2.2 的代码 wget http://www.xunsearch....
  • ziaoang
  • ziaoang
  • 2013年11月18日 21:18
  • 971

php实现 scws中文分词的搜索

1、4个文件解压后,放到一个地方   eg:E:/wamp/scws 2、php.ini 中配置   extension = php_scws.dll scws.default.charset = ...

scws中文分词器

  • 2011年12月04日 00:12
  • 290KB
  • 下载

Lucene6.5.0 下中文分词IKAnalyzer编译和使用

前言 lucene本省对中文分词有支持,不过支持的不好,其分词方式是机械的将中文词一个分成一个进行存储,例如:成都信息工程大学,最终分成为::成|都|信|息|工|程|大|学,显然这种分词方式是低效且...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:SCWS 中文分词
举报原因:
原因补充:

(最多只允许输入30个字)