Haohappy的专栏--PHP5研究中心

PHP5研究中心 研究专业PHP技术,传播全球最新PHP动态 ,推广国内PHP企业应用

原创 中文分词的实现思路收藏

在PHPE.net论坛上给网友的回贴。

现在的搜索引擎技术主要包括四个环节,网页抓取、超链分析、网页检索和搜索服务。分词就是把一句完整的话分成几个词,搜索引擎找出其中的关键词进行检索。中文分词是搜索服务的入口点,是中文搜索引擎的基础所在。有了良好的分词技术,才能真正让搜索引擎了解用户所需要的信息是什么。

写写中文分词的PHP实现思路(因为最近正在写个项目,暂时不能提供源代码,不过难度不大),虽然在各方面都还有待完善,但是整个流程还是比较完整的。

首先有关分词的基础知识:

分词技术研究报告
http://www.lw86.com/lunwen/computer/ai/3818.html

中文搜索引擎技术揭密:中文分词
http://www.shi8.com/286.html

推荐看些课件(北大中文系研究生的课程):
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/contents/Chapter_07_1.ppt



第二. 语料库的准备
可以选用《人民日报》语料库,是北京大学计算语言学研究所与富士通公司(Fujitsu)合作的产品,加工2700万字的《人民日报》语料库,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。在网上可以下载,不过不清楚是否免费,请自行搜索。

语料库要加工为词典,供PHP程序使用。

第三. 分词算法原理
最常用的是最大匹配法和最大概率法,为了加强精确度,避免歧义,可以结合多种算法。多种算法结合会导致速度下降,视项目要求采用。

第四. 分词的PHP实现
原理见上面推荐的PPT幻灯片,只不过是用PHP加载词典文件,再实现字符串的搜索而已。目前来看,效果还是不错的,但是效率不太高。没有办法,像PHP这种脚本语言,要求不能太高。接下来试试先用C写分词部份,再用PHP调用,测试一下效率。

发表于 @ 2005年11月15日 16:27:00|评论(loading...)

新一篇: 即时通讯软件,要互通还是开放? | 旧一篇: PHP6将实现的几个特性/功能

用户操作
[即时聊天] [发私信] [加为好友]
Haohappy
订阅我的博客
XML聚合  FeedSky
Haohappy的公告
我的Blog主要关于PHP/Java WEB开发。欢迎讨论:

MSN:

Email:


所有文章均为Haohappy原创或翻译,允许转载,但请保留出处及作者信息。


我的网站:
PHPEye开源社区
phpeye.com

我的新书:


《Programming PHP》中文版第二版,陈浩(Haohappy)、胡丹、徐景(RainX)译,电子工业出版社出版,2007年4月上市)

网上书店购买地址:
当当网(dangdang.com)
互动出版网(china-pub.com)
第二书店(dearbook.com)
华储网(huachu.com.cn)
蔚蓝书店(welan.com)

本书 配套论坛  勘误系统

常用参考手册:

文章分类
收藏
    Blogs
    Fantasy Soft(RSS)
    Freeman的Blog
    hosander的专栏
    PHPEye.com
    web2.0 focus(RSS)
    开发视界[专家专栏](RSS)
    歪脖·坑(RSS)
    存档
    Csdn Blog version 3.1a
    Copyright © Haohappy