jieba分词、关键词提取、词性标注

最新推荐文章于 2023-03-21 08:16:42 发布

Relite

最新推荐文章于 2023-03-21 08:16:42 发布

阅读量1.6k

点赞数

分词/关键词提取

seg = jieba.cut(content)  
        jieba.analyse.set_stop_words('stopword.txt')  
        keyWord = jieba.analyse.extract_tags(  
            '|'.join(seg), topK=20, withWeight=True, allowPOS=())

词性标注

>>> import jieba.posseg as pseg
>>> words =pseg.cut("我爱北京天安门")
>>> for w in words:
...    print(w.word,w.flag)
...
我 r
爱 v
北京 ns
天安门 ns

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Relite

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python --jieba 分词

weixin_62816287的博客

04-07

6358

jieba库是什么 jieba库中文分词第三方库，中文文本需要通过分词获得单个的词语。 jieba库的原理：利用中文字库，确定汉字之间的关联概率，汉字件概率大的组成词组，形成分词结果，还可以添加自定义的词组。 jieba库的使用 jieba库分词有3种 1.精确模式：一段文本精确地切分成若干个中文单词，若干个中文单词经过组合，精确还原原先地文本，不存在冗余单词。 2.全模式：一段文本种所有可能出现地词语都扫描出来，一段文本从不同地角度切分成不同地词语，分词后地信息组合会有冗余，不在是原来的文本。

jieba分词词性标注.py

11-20

将需要分词进行词性标注的句子存放在corpus文本文件（自建）中，最好是每句话存为一行。注：corpus文件需放在代码所在文件夹里。运行代码，自动生成一个outcome文本文件，分词词性标注结果就在此文本里。

参与评论您还未登录，请先登录后发表或查看评论

Jieba中文分词 (二) ——词性标注与关键词提取

吉姆0818

04-16

3400

jieba分词上一篇jieba中文分词（一）分词与自定义字典已介绍了jieba中文分词安装，分词原理，分词方法，自定义字典，添加字典等多种常用分词方法。本篇将继续介绍jieba分词关键词提...

基于分词（jieba）的名词性短语识别

weixin_48456383的博客

02-16

430

自然语言处理名词性短语识别代码

结巴分词（支持词性标注）

12-17

结巴分词早期版本。 * 结巴分词(java版) jieba-analysis 首先感谢jieba分词原作者[[https://github.com/fxsjy][fxsjy]]，没有他的无私贡献，我们也不会结识到结巴分词，更不会有现在的java版本。结巴分词的原始版本为python编写，目前该项目在github上的关注量为170，打星727次（最新的数据以原仓库为准），Fork238次，可以说已经有一定的用户群。结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for_index、cut_for_search)，词性标注，关键词提取没有实现(今后如用到，可以考虑实现)。 * 简介 ** 支持分词模式 - Search模式，用于对用户查询词分词 - Index模式，用于对索引文档分词 ** 特性 - 支持多种分词模式 - 全角统一转成半角 - 用户词典功能 - conf 目录有整理的搜狗细胞词库 - 支持词性标注(感谢 [[https://github.com/linkerlin][@linkerlin]] 的贡献) * 如何获取 - 当前稳定版本 #+BEGIN_SRC xml com.huaban jieba-analysis 0.0.2 #+END_SRC - 当前快照版本 - 支持词性标注 [[https://github.com/huaban/jieba-analysis/pull/4][#4]] - 修复以'-'连接词分词错误问题 [[https://github.com/huaban/jieba-analysis/issues/3][#3]] #+BEGIN_SRC xml com.huaban jieba-analysis 1.0.0-SNAPSHOT #+END_SRC * 如何使用 - Demo #+BEGIN_SRC java @Test public void testDemo() { JiebaSegmenter segmenter = new JiebaSegmenter(); String[] sentences = new String[] {"这是一个伸手不见五指的黑夜。我叫孙悟空，我爱北京，我爱Python和C++。", "我不喜欢日本和服。", "雷猴回归人间。", "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作", "结果婚的和尚未结过婚的"}; for (String sentence : sentences) { System.out.println(segmenter.process(sentence, SegMode.INDEX).toString()); } } #+END_SRC * 算法(wiki补充...) - [ ] 基于 =trie= 树结构实现高效词图扫描 - [ ] 生成所有切词可能的有向无环图 =DAG= - [ ] 采用动态规划算法计算最佳切词组合 - [ ] 基于 =HMM= 模型，采用 =Viterbi= (维特比)算法实现未登录词识别 * 性能评估 - 测试机配置 #+BEGIN_SRC screen Processor 2 Intel(R) Pentium(R) CPU G620 @ 2.60GHz Memory：8GB 分词测试时机器开了许多应用(eclipse、emacs、chrome...)，可能会影响到测试速度 #+END_SRC - [[src/test/resources/test.txt][测试文本]] - 测试结果(单线程，对测试文本逐行分词，并循环调用上万次) #+BEGIN_SRC screen 循环调用一万次第一次测试结果： time elapsed:12373, rate:2486.986533kb/s, words:917319.94/s 第二次测试结果： time elapsed:12284, rate:2505.005241kb/s, words:923966.10/s 第三次测试结果： time elapsed:12336, rate:2494.445880kb/s, words:920071.30/s 循环调用2万次第一次测试结果： time elapsed:22237, rate:2767.593144kb/s, words:1020821.12/s 第二次测试结果： time elapsed:22435, rate:2743.167762kb/s, words:1011811.87/s 第三次测试结果： time elapsed:22102, rate:2784.497726kb/s, words:1027056.34/s 统计结果:词典加载时间1.8s左右，分词效率每秒2Mb多，近100万词。 2 Processor Intel(R) Core(TM) i3-2100 CPU @ 3.10GHz 12G 测试效果 time elapsed:19597, rate:3140.428063kb/s, words:1158340.52/s time elapsed:20122, rate:3058.491639kb/s, words:1128118.44/s #+END_SRC

简明 jieba 中文分词教程

GavinKai

03-21

1777

【全模式】：人生/ 易/ 老天/ 難/ 老/ / / 歲/ 歲/ 重/ 陽/ / / 今/ 又/ 重/ 陽/ / / 戰/ 地/ 黃/ 花/ 分外/ 香/ / / 壹年/ 壹/ 度/ 秋/ 風/ 勁/ / / 不似/ 春光/ / / 勝/ 似/ 春光/ / / 寥廓/ 江天/ 萬/ 裏/ 霜/ /目前在建吉林欧亚城市商业综合体项目。【搜索引擎模式】：他/ 毕业/ 于/ 上海/ 交通/ 大学/ 上海交通大学/ 机电/ 系/ ，/ 后来/ 在/ 一机部/ 上海/ 电器/ 科学/ 研究/ 研究所/ 工作。

jieba分词详解和实践

01-20

总之，jieba分词是一个强大且灵活的工具，它结合了精确的词典分词与高效的TF-IDF关键词提取，为中文文本的处理提供了便利。无论是学术研究还是商业应用，jieba都能帮助开发者高效地处理中文数据，挖掘文本中的隐藏...

Lowpoly风街霸角色布兰卡（Blanka）Blender源文件

11-03

Lowpoly风街霸角色布兰卡（Blanka）Blender源文件老王的原创教程见《手把手带你Godot游戏开发第二弹】名场面临摹之街霸3D》 https://orzgame.blog.csdn.net/article/details/109402316

少年街霸游戏程序

10-29

《少年街霸游戏程序》是一款深受玩家喜爱的经典游戏，它承载了无数人的童年记忆。这款游戏在当时的街机市场上占据了重要地位，以其独特的角色设计、刺激的格斗体验和丰富的游戏模式吸引了众多玩家。《少年街霸》的...

Lowpoly风街霸角色维加（Vega）Blender源文件

11-04

Lowpoly风街霸角色维加（Vega）Blender源文件老王的原创教程见《手把手带你Godot游戏开发第二弹】名场面临摹之街霸3D》 https://orzgame.blog.csdn.net/article/details/109402316

中文自然语言处理--jieba 进行命名实体识别和提取

糯米君的博客

03-30

6787

通过简单的 jieba 分词然后根据词性获取实体对象 import jieba import jieba.analyse import jieba.posseg as posg # 使用 jieba 进行词性切分，allowPOS 指定允许的词性，这里选择名词 n 和地名 ns sentence = u'''上线三年就成功上市,拼多多上演了互联网企业的上市奇迹,却也放大平台上存在的诸多问题，拼多多在美国上市。''' kw = jieba.analyse.extract_tags(sentence, top

简明Jieba中文分词教程（分词、关键词提取、词性标注、计算位置）

lty_sky的专栏

04-16

1万+

目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 TF-IDF 算法的关键词提取 4.2 基于 TextRank 算法的关键词提取 4.3 自定义语料库 5 词性标注 6 并行分词 7 返回词语在原文的起止位置 ...

python--jieba分词、词性标注、关键词提取、添加自定义词典完整代码示例

LOVEYSUXIN的专栏

12-11

1万+

jieba是目前最好的 Python 中文分词组件，它主要有以下 3 种特性：支持 3 种分词模式：精确模式、全模式、搜索引擎模式支持繁体分词支持自定义词典 1 分词可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词，两者所返回的结构都是一个可迭代的 generator，可使用 for 循环来获得分词后得到的每一个词语（unicode），或...

一、（4）结巴分词词性提取

python

05-15

7281

※ 结巴分词词性提取代码如下： # -*- coding: utf-8 -*- """ Created on Tue May 14 14:45:01 2019 @author: sun """ import jieba.posseg as psg import codecs # 建立结果保存路径 result = codecs.open("带词性的分词结果.txt", 'w', 'utf-8...

自然语言处理学习7：jieba中文关键词提取和词性标注

zhuzuwei的博客

05-29

3953

1. 关键词提取: jieba.analyse.extrags() 其中参数sentence 为待提取的文本，topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20，withWeight 为是否一并返回关键词权重值，默认值为 False。 allowPOS 仅包括指定词性的词，默认值为空，即不筛选。 import jieba import jieba.analyse impor...

好玩的分词——python jieba分词模块的基本用法

键盘上的手艺人

06-03

3254

jieba（结巴）是一个强大的分词库，完美支持中文分词，本文对其基本用法做一个简要总结。

Jieba词性对照表

阿卡卡西米露的博客

01-20

5432

@Jieba词性对照表 jieba词性对照表: // jieba词性对照表 - a 形容词 - ad 副形词 - ag 形容词性语素 - an 名形词 - b 区别词 - c 连词 - d 副词 - df - dg 副语素 - e 叹词 - f 方位词 - g 语素 - h 前接成分 - i 成语 - j 简称略称 - k 后接成分 - l 习用语 - m 数词 - mg - m

jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP自然语言处理

Python开发工程师

08-30

5195

1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding，自然语言处理/理解日常对话、办公写作、上网浏览希望机器能像人一样去理解，以人类自然语言为载体的文本所包含的信息，并完成一些特定任务内容中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入…… 应用篇章理解、文本摘要、情感分析、...

python的jieba分词词性标注