sphinx jieba自定义分词php,jieba中文分词(PHP版本)

最新推荐文章于 2024-03-30 09:35:05 发布

rainman sky

最新推荐文章于 2024-03-30 09:35:05 发布

阅读量423

点赞数

文章标签： sphinx jieba自定义分词php

1.特点

支持三种分词模式

精准模式，将句子按词语切分成几分

全模式，把句子中所有可以成词的词语扫描出来

搜索引擎模式，在精准模式基础上，对长词再次切分

支持繁体字

支持自定义词典

2.安装

composer require fukuball/jieba-php:dev-master

3.使用

1.分词

jieba.cut 方法接受两个参数，第一个为要分词的字符串第二个为选用的分词模式

Jieba::cut("今天天气真好",true); #全模式

?code=MWM0MWI0YTJjODY3ZDBmMDE5ZTE1YjgwNzZjNDU0YjVfREE3eEljZDl6eDg0bU41S0FlVXVxcDBHSnVSVkF6ZkhfVG9rZW46Ym94Y25FUkNFV1FtY094WGpjaHYzMDJjTXloXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

Jieba::cut("今天天气真好",false); #精准模式

?code=OWNiZGI3ZGMxMThlNzM4ZmExNjdiOTUwZDFkYTM1Y2NfTHpkREZzcUFYNDZadHFZblptQlRKV1I2bE5WRkVKVkdfVG9rZW46Ym94Y25IaFU0ODFLREh4NmVxRkpHOFFCbWxnXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

Jieba::cutForSearch("今天天气真好",false); #搜索引擎模式

?code=YzlkOTc1OTVjNTVjYjlkMzAyYjQ5YWRmOGQ0ZGRlNGVfVTFyOWU2bHlnczRhWVh2ZHBwbnlISFVqRUJQeTlzNGhfVG9rZW46Ym94Y25nY2tEUHFKbWlmczA0V0pmUjFmdEFnXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

2.添加自定义词典

Jieba::loadUserDict(file_name) # file_name 自定义词典的路径

词典格式与自带词典保持一致，一个词占一行；每一行分为三部分，一部分为词语，一部分为词频(该词语出现的频率，频率设置的越大切分出来的概念越大)，一部分为词性，用空格隔开

?code=ZGFiM2IzMjM5YThhODNjMDA3N2NhOWUwNDA4MmVjYmRfM092Vjd1VTNmakd1MUUxWHNEQm4zSG1WTG1icWpIUHlfVG9rZW46Ym94Y240bUFIeFFTblJIOVNZYWZlNVEwQjJiXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

3.关键词提取

说明：可以提取一个文本出现频率高的词语,返回的词按频率大小排序

方法： JiebaAnalyse::extractTags(content, top_k)

参数： content 为要提取的文本 top_k 为返回多少个权重最大的关键词，默认20

注意：可使用 JiebaAnalyse::setStopWords 增加自定义要计算频率的值

4.词性分词(词性说明)

说明：按词性进行分词，并返回词语和词性

方法：Posseg::cut("欢迎来到北京大学")

输出：

?code=OTM1ODQwNmQ3OTAyOWYzZjA1YTliZGE5NzYwZGVhZDJfbjRVRTlBVHFPS1F5anNOdFFxdDFJYWd4c29UVDk5Tm9fVG9rZW46Ym94Y25XbXpFOFZKaUhsT2U4dGdkU29pTldiXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

5.切换成繁体字典

只需要在Jieba初始化时传dict=big,其余用法相同(其实就是切换了一下词典)

Jieba::init(array('mode' = >'default','dict' = >'big'));

6.返回词语在原文的起止位置

方法：Jieba::tokenize("欢迎来到北京大学")

输出：

?code=ZmVhMGNmODc0Mzk0OWVkMzMzN2NhZjI2YjhhZDViMzdfaFRUMEdQaGk1cld3elJmbmw2cmZmWnJFSGJwdkdrRDJfVG9rZW46Ym94Y25tMEluM0FmWEhROFNQNXlWYnNBUkZnXzE2MTQ4NTQyNzY6MTYxNDg1Nzg3Nl9WNA

说明文档链接：https://packagist.org/packages/fukuball/jieba-php

rainman sky

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sphinx jieba自定义分词php,jieba中文分词(PHP版本)

1.特点支持三种分词模式精准模式，将句子按词语切分成几分全模式，把句子中所有可以成词的词语扫描出来搜索引擎模式，在精准模式基础上，对长词再次切分支持繁体字支持自定义词典2.安装composer require fukuball/jieba-php:dev-master3.使用1.分词jieba.cut 方法接受两个参数，第一个为要分词的字符串第二个为选用的分词模式Jieba::cut("今天天气...
复制链接

扫一扫

sphinx jieba自定义分词php,jieba中文分词(PHP版本)

“相关推荐”对你有帮助么？