1.特点
支持三种分词模式
精准模式,将句子按词语切分成几分
全模式,把句子中所有可以成词的词语扫描出来
搜索引擎模式,在精准模式基础上,对长词再次切分
支持繁体字
支持自定义词典
2.安装
composer require fukuball/jieba-php:dev-master
3.使用
1.分词
jieba.cut 方法接受两个参数,第一个为要分词的字符串 第二个为选用的分词模式
Jieba::cut("今天天气真好",true); #全模式
Jieba::cut("今天天气真好",false); #精准模式
Jieba::cutForSearch("今天天气真好",false); #搜索引擎模式
2.添加自定义词典
Jieba::loadUserDict(file_name) # file_name 自定义词典的路径
词典格式与自带词典保持一致,一个词占一行;每一行分为三部分,一部分为词语,一部分为词频(该词语出现的频率,频率设置的越大切分出来的概念越大),一部分为词性,用空格隔开
3.关键词提取
说明:可以提取一个文本出现频率高的词语,返回的词按频率大小排序
方法: JiebaAnalyse::extractTags(content, top_k)
参数: content 为要提取的文本 top_k 为返回多少个权重最大的关键词,默认20
注意: 可使用 JiebaAnalyse::setStopWords 增加自定义要计算频率的值
4.词性分词(词性说明)
说明:按词性进行分词,并返回词语和词性
方法:Posseg::cut("欢迎来到北京大学")
输出:
5.切换成繁体字典
只需要在Jieba初始化时传dict=big,其余用法相同(其实就是切换了一下词典)
Jieba::init(array('mode' = >'default','dict' = >'big'));
6.返回词语在原文的起止位置
方法:Jieba::tokenize("欢迎来到北京大学")
输出:
说明文档链接:https://packagist.org/packages/fukuball/jieba-php