sphinx jieba自定义分词php,jieba中文分词(PHP版本)

1.特点

支持三种分词模式

精准模式,将句子按词语切分成几分

全模式,把句子中所有可以成词的词语扫描出来

搜索引擎模式,在精准模式基础上,对长词再次切分

支持繁体字

支持自定义词典

2.安装

composer require fukuball/jieba-php:dev-master

3.使用

1.分词

jieba.cut 方法接受两个参数,第一个为要分词的字符串 第二个为选用的分词模式

Jieba::cut("今天天气真好",true); #全模式

?code=MWM0MWI0YTJjODY3ZDBmMDE5ZTE1YjgwNzZjNDU0YjVfREE3eEljZDl6eDg0bU41S0FlVXVxcDBHSnVSVkF6ZkhfVG9rZW46Ym94Y25FUkNFV1FtY094WGpjaHYzMDJjTXloXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

Jieba::cut("今天天气真好",false); #精准模式

?code=OWNiZGI3ZGMxMThlNzM4ZmExNjdiOTUwZDFkYTM1Y2NfTHpkREZzcUFYNDZadHFZblptQlRKV1I2bE5WRkVKVkdfVG9rZW46Ym94Y25IaFU0ODFLREh4NmVxRkpHOFFCbWxnXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

Jieba::cutForSearch("今天天气真好",false); #搜索引擎模式

?code=YzlkOTc1OTVjNTVjYjlkMzAyYjQ5YWRmOGQ0ZGRlNGVfVTFyOWU2bHlnczRhWVh2ZHBwbnlISFVqRUJQeTlzNGhfVG9rZW46Ym94Y25nY2tEUHFKbWlmczA0V0pmUjFmdEFnXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

2.添加自定义词典

Jieba::loadUserDict(file_name) # file_name 自定义词典的路径

词典格式与自带词典保持一致,一个词占一行;每一行分为三部分,一部分为词语,一部分为词频(该词语出现的频率,频率设置的越大切分出来的概念越大),一部分为词性,用空格隔开

?code=ZGFiM2IzMjM5YThhODNjMDA3N2NhOWUwNDA4MmVjYmRfM092Vjd1VTNmakd1MUUxWHNEQm4zSG1WTG1icWpIUHlfVG9rZW46Ym94Y240bUFIeFFTblJIOVNZYWZlNVEwQjJiXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

3.关键词提取

说明:可以提取一个文本出现频率高的词语,返回的词按频率大小排序

方法: JiebaAnalyse::extractTags(content, top_k)

参数: content 为要提取的文本 top_k 为返回多少个权重最大的关键词,默认20

注意: 可使用 JiebaAnalyse::setStopWords 增加自定义要计算频率的值

4.词性分词(词性说明)

说明:按词性进行分词,并返回词语和词性

方法:Posseg::cut("欢迎来到北京大学")

输出:

?code=OTM1ODQwNmQ3OTAyOWYzZjA1YTliZGE5NzYwZGVhZDJfbjRVRTlBVHFPS1F5anNOdFFxdDFJYWd4c29UVDk5Tm9fVG9rZW46Ym94Y25XbXpFOFZKaUhsT2U4dGdkU29pTldiXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

5.切换成繁体字典

只需要在Jieba初始化时传dict=big,其余用法相同(其实就是切换了一下词典)

Jieba::init(array('mode' = >'default','dict' = >'big'));

6.返回词语在原文的起止位置

方法:Jieba::tokenize("欢迎来到北京大学")

输出:

?code=ZmVhMGNmODc0Mzk0OWVkMzMzN2NhZjI2YjhhZDViMzdfaFRUMEdQaGk1cld3elJmbmw2cmZmWnJFSGJwdkdrRDJfVG9rZW46Ym94Y25tMEluM0FmWEhROFNQNXlWYnNBUkZnXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

说明文档链接:https://packagist.org/packages/fukuball/jieba-php

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值