实用 PHP+jieba(结巴)中文关键字提取

最新推荐文章于 2025-04-17 15:50:36 发布

mrqinxd

最新推荐文章于 2025-04-17 15:50:36 发布

阅读量6.3k

点赞数 1

分类专栏： PHP 文章标签： jieba 结巴

本文链接：https://blog.csdn.net/uesr_qxd/article/details/88342349

版权

本文详细介绍jieba中文分词插件的特性与使用方法，包括兼容性、分词模式、关键词提取及自定义词库导入等功能，适用于多种开发语言。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

jieba（结巴）中文分词

jieba（结巴）中文分词是目前国内一款较好的中文分词插件。

1.兼容当前绝大部分流行开发语言，例：Java、C/C++、PHP、Ios、 Node.js 等开发语言。

2.搜索引擎模式，全模式和精确模式匹配，以及关键词提取的实用性的功能

3.代码开源，词库自定义等优势

4.对GBK不是特别友好、需要转译一次；中英文分词兼容性不是很好；词库更新较缓慢，如果是长期的分词使用，需要频繁更新词库。

下面通过PHP+jieba来进行中文分词

安装

代码(zip)下载地址：https://github.com/fukuball/jieba-php

下载之后放在PHP运行环境中并且在使用时需要引入

require_once "/path/to/your/vendor/multi-array/MultiArray.php";
require_once "/path/to/your/vendor/multi-array/Factory/MultiArrayFactory.php";
r

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mrqinxd

关注关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

PHP分词使用之Jieba分词（结巴分词）应用

weixin_30895603的博客

12-01

3184

一、下载地址 1.https://github.com/fukuball/jieba-php 二、简介 “结巴”中文分词：做最好的PHP中文分词，中文断词组件。/“结巴”（中文为“口吃”）中文分词：建立最好的PHP中文分词模块。目前翻译版为jieba-0.26版本，未来再慢慢往上升级，效能也需要再改善，请有兴趣的开发者一起加入开发！若想使用Python版...

php+jieba+字典,结巴(jieba)分词器入门

weixin_31292729的博客

03-19

415

安装jieba# pip install jieba分词工具import jiebainput="我来到北京大学"seg_list=jieba.cut(input)print("默认精确模式:"+"/".join(seg_list))seg_list=jieba.cut(input,cut_all=True)print("全模式:"+"/".join(seg_list))默认精确模式:我/来到/北...

3 条评论您还未登录，请先登录后发表或查看评论

phpjieba:结巴中文分词之php扩展，适用php5,php7

05-17

version 0.0.6 加载字典缘故嫌慢的同学可以考虑使用 functions array jieba(string $text, int $action = 0, int $limit = 50) action 0 Extract 1 CutForSearch 2 Tag 3 TagAll 解决 Tag 对于相同 key 的问题 install git clone https://github.com/jonnywang/phpjieba.git cd phpjieba/cjieba make cd .. phpize ./configure make make install jieba more detail please visit php.ini extension=jieba.so jieba.enable=1 jieba.dict_path=/data/softs/ph

php调用jieba,PHP通过FFI调用CJieba分词

weixin_39807352的博客

03-10

184

这里尝试使用PHP 7.4的 FFI 测试直接调用cjieba分词的动态库。选用CJieba的原因是FFI使用的是C的调用约定，如果用Cpp，还得自己包装一下，然后extern C,让编译器生成标准C的动态库。碰到的问题段错误C变量没有初始化直接调用了C的函数，没有通过FFI 初始化后的的C对象调用非空判断需要使用 FFI::isNull($x)指针形式的数组不能用foreach指针形式数组的...

04-17

推荐开源项目：jieba-php - 强大的中文分词神器

gitblog_00060的博客

05-14

866

Jieba PHP - 高性能中文分词组件指南

gitblog_00024的博客

08-09

1050

Jieba PHP - 高性能中文分词组件指南 jieba-php"結巴"中文分詞：做最好的 PHP 中文分詞、中文斷詞組件。 / "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best PHP Chinese word segmentation module.项目地址:https://...

NLP+词法分析+jieba+命名实体识别+关键词提取+NLP课件ppt+代码

03-28

中文分词+关键字提取.zip

04-17

中文分词和关键字提取是自然语言处理（NLP）领域中的两个重要技术，它们在文本分析、信息检索、机器翻译等多个应用中发挥着关键作用。本压缩包包含的"中文分词+关键字提取"资源提供了关于这两个技术的详细文档，以及...

利用jieba分词进行关键字提取生成词云图

Tony_20的博客

03-27

2496

为了更加直观分析一些岗位要求，我们可以利用jieba分词技术对岗位要求内容进行关键字提取，并通过词云技术进行渲染展示首先我们将sql文件转化成Excel文件 import pandas as pd import sqlite3 conn = sqlite3.connect("recruit.db") df = pd.read_sql("select * from recruit",conn) d...

python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库 -转载

weixin_34357928的博客

01-24

1438

转载请注明出处 “结巴”中文分词：做最好的 Python 中文分词组件,分词模块jieba，它是python比较好用的分词模块, 支持中文简体，繁体分词，还支持自定义词库。jieba的分词，提取关键词，自定义词语。结巴分词的原理原文链接：http://blog.csdn.net/HHTNAN/article/details/78722754 1、jieba.cut分词三种模式 ...

JiebaPHP結巴中文分詞做最好的PHP中文分詞中文斷詞組件

08-08

Jieba-PHP - "結巴"中文分詞：做最好的 PHP 中文分詞、中文斷詞組件

jieba-php：“结巴”中文分词：做最好PHP。PHP中文分词，中文断词组件。“ Jieba”（中文为“ to stutter”）中文文本分割：构建为最佳PHP中文单词分割模块

02-03

“结巴”中文分词：做最好PHP中文分词，中文断词组件，当前翻译版本为jieba-0.33版本，未来再慢慢往上升级，效能也需要再改善，请有兴趣的开发者一起加入开发！若想使用Python版本请前往现在已经可以支持繁体中文！只要将字典切换为big模式即可！ “ Jieba”（中文为“ to stutter”）中文文本分割：内置为最好PHP中文单词分割模块。向下滚动以获取英文文档。线上展示网站网址： : 网站原始码： : 特征支持三种分词模式： 1）最小精确模式，试图将句子最精确地切开，适合文本分析； 2）全模式，把句子中所有的可以成词的单词都扫描出来，但是不能解决歧义。（需要大量的字典）搜寻引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合使用搜寻引擎分词。支持繁体断词支持自定义词典用法自动安装：使用composer安装后，透过autoload引用代码示例 composer require fukuball/jieba-php:dev-master 代码示例 require_once "/path/to/your/vendor/autoload

deminy jieba php,PHP 如何提取文章关键词

weixin_31954813的博客

03-22

274

在做SEO的过程中，通常需要在填写 keywords meta 标签，这样可以更容易搜索引擎搜索到。当然可以通过手动提取文章关键词，就是读一遍文章，将文章中比较重要的词提取出来，但是这种方法比较浪费时间，如果每次更新文章，都需要重新读一遍文章，然后再重复之前的提取关键词的过程。这篇文章将讲解，如何使用‘jieba中文分词’来提取文章中的关键词composer require fukuball/ji...

jieba-php 项目使用教程

gitblog_00726的博客

08-09

1071

jieba-php 项目使用教程 jieba-php"結巴"中文分詞：做最好的 PHP 中文分詞、中文斷詞組件。 / "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best PHP Chinese word segmentation module.项目地址:https://gitcode...

php调用jieba,php搜索分词处理(jieba分词)

weixin_39795479的博客

03-10

637

做搜索分词处理的时候,有几个常用的分词方法,jieba分词,scws分词,jieba分词是比较常用的分词开启 php 扩展pdo_sqlitesqlite3mbstring1.先compose安装一下composer require vanry/laravel-scout-tntsearch2、添加 Provider'providers' => [... /** * TNTSearch 全文...

php jieba,GitHub - deminy/jieba-php: "结巴中文分词"PHP版本

weixin_35589827的博客

03-19

307

"结巴中文分词"PHP版本："结巴中文分词"是Sun Junyi开发的Python版的中文分词组件，后来衍生了多种语言实现，包括C++、Java、.NET、Go等等。这份PHP版本起始于fukuball之前做的PHP实现(v0.25)，随后对其整体重写并作了各种更新和改进，包括代码升级、使用PHP 7的新功能重构代码、使用PSR-4管理autoloading、使用依赖注射等设计模式、更新单元测试的...

PHP—jieba 安装扩展方式使用

pasas12001的博客

06-03

449

phpjieba 安装使用

php—jieba 不安装扩展方式使用

pasas12001的博客

06-03

734

jieba-php 不安装扩展方式使用

jieba库减关键字

12-28

jieba库是一个常用的中文分词工具，可以用于将中文文本切分成词语。它可以帮助我们提取关键字，从而实现关键字的提取和文本的分类等功能。下面是使用jieba库进行关键字提取的示例代码： ```python import jieba # 设置待分词的文本 text = "街霸游戏源码J2ME，该游戏的源码比较完整，功能也很齐全，而且游戏的源码也比较清晰，界面还可以，值得大家java游戏开发的朋友可以下载研究看看" # 使用jieba进行分词 words = jieba.cut(text) # 输出分词结果 print("分词结果：") for word in words: print(word) # 关键字提取 keywords = jieba.analyse.extract_tags(text, topK=5) # 输出关键字 print("关键字：") for keyword in keywords: print(keyword) ``` 运行以上代码，可以得到以下结果： ``` 分词结果：街霸游戏源码 J2ME ，该游戏的源码比较完整，功能也很齐全，而且游戏的源码也比较清晰，界面还可以，值得大家 java 游戏开发的朋友可以下载研究看看 关键字：游戏源码街霸开发下载 ``` 可以看到，使用jieba库进行分词后，我们可以得到文本的分词结果。然后，使用jieba.analyse.extract_tags()函数可以提取出文本中的关键字。在上述示例中，我们提取了前5个关键字。