php sae,PHP使用SAE(Sina App Engine)的中文分词服务提取关键字

最近有个业务需求,新闻发布的时候自动提取正文中的 关键字 ,我用 SAE(Sina App Engine)

的 中文分词 服务实现了它。

本来是想用 DEDECMS 自动提取关键字那套,但是它太弱了,提取出来的关键字根本不能用。比如它

能把“个”作为一个关键字。

网上搜了下PHP提取关键字的方法,有几个人给出了解决方案,甚至还有配套的代码和词库,但是由于

代码不够良好,所以运行不起来。没办法,只好另寻方法。忽然想来SAE(Sina App Engine)提供的

有中文分词服务,何不用它来提取关键字呢?

SAE的分词服务提取出来的只是一个个的词、它的词性及出现位置。就关键词来说,我还需要在它的基础

上统计每个词出现的次数。另外,有些词是不适合作关键字的,如标点符号、副词、语气词等等,所以需要

先过滤掉这些词再统计频次。

SAE的分词服务有一点限制:文本不能超过10K。大于10K的文本就只能分段截取逐次提交了,最后再汇总

结果。

整体思路就是这样,并且本周三已完成了相关代码,运行在SAE上的相当于一个接口,它接收文本,处理后返

回JSON数组,这个数组是很原始的,只包含文本中出现的词,它的词性及出现的位置。本地应用调用这个接口,再

处理返回的数组,词的频次统计是由本地应用来完成的。因为我想着服务端的接口还能用于其它地方,所以只返回原

始数据比较好。

SAE的中文分词服务不仅PHP能调用,JAVA,Python也同样可以。

欢迎加入我爱机器学习QQ14群:336582044

getqrcode.jpg

微信扫一扫,关注我爱机器学习公众号

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值