现在, 很多web系统都用到了不少的自然语言处理技术来提高客户体验.
主要技术:
1. 文章关键字提取.
2. 相关文章(产品)推荐.
最近有不少网友问道, 这里以php为例子讲解下php的"关键字提取"的实现, 同时这个也是实现"相关文章推荐"的前提.
基本分以下几个步骤:
一. 对文章进行分词:
php的中文分词程序还是有不少的, 从前辈的scws, 到用纯php实现的phpAnalysis, phpcws(phpcws)以及本人开发的robbe扩展.
这里的讲解是使用"robbe分词扩展"来进行分词, robbe兴许不是最好的, 但一定是最快的.
选择的分词器需要支持停止词过滤.
二. 统计词条词频并且排序:
对一篇文章分词后, 统计每个词条出现的次数. 然后按照词频降序排序下, 你想要的结果在前面几个词中.
前提是去除了出现词频很高的停止词, 要不然得到的都是一些无用的停止词. (类似于TF-IDF算法)
完整的过程代码如下:
header('content-type:text/html;charset:utf-8');
$__text__ = '';
$__mode__ = 2;
$__timer__ = 0;
$_act = '';
if ( isset($_POST['_act']) ) {
$_act = $_POST['_act'];
if ( $_act == 'split' ) {
$__text__ = $_POST['text'];