中文分词的实现思路

在PHPE.net论坛上给网友的回贴。

现在的搜索引擎技术主要包括四个环节,网页抓取、超链分析、网页检索和搜索服务。分词就是把一句完整的话分成几个词,搜索引擎找出其中的关键词进行检索。中文分词是搜索服务的入口点,是中文搜索引擎的基础所在。有了良好的分词技术,才能真正让搜索引擎了解用户所需要的信息是什么。

写写中文分词的PHP实现思路(因为最近正在写个项目,暂时不能提供源代码,不过难度不大),虽然在各方面都还有待完善,但是整个流程还是比较完整的。

首先有关分词的基础知识:

分词技术研究报告
http://www.lw86.com/lunwen/computer/ai/3818.html

中文搜索引擎技术揭密:中文分词
http://www.shi8.com/286.html

推荐看些课件(北大中文系研究生的课程):
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/contents/Chapter_07_1.ppt



第二. 语料库的准备
可以选用《人民日报》语料库,是北京大学计算语言学研究所与富士通公司(Fujitsu)合作的产品,加工2700万字的《人民日报》语料库,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。在网上可以下载,不过不清楚是否免费,请自行搜索。

语料库要加工为词典,供PHP程序使用。

第三. 分词算法原理
最常用的是最大匹配法和最大概率法,为了加强精确度,避免歧义,可以结合多种算法。多种算法结合会导致速度下降,视项目要求采用。

第四. 分词的PHP实现
原理见上面推荐的PPT幻灯片,只不过是用PHP加载词典文件,再实现字符串的搜索而已。目前来看,效果还是不错的,但是效率不太高。没有办法,像PHP这种脚本语言,要求不能太高。接下来试试先用C写分词部份,再用PHP调用,测试一下效率。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值