结巴分析

最新推荐文章于 2021-11-02 16:28:26 发布

erinapple

最新推荐文章于 2021-11-02 16:28:26 发布

阅读量515

点赞数

分类专栏：推荐系统

推荐系统专栏收录该内容

25 篇文章 0 订阅

订阅专栏

Tokenize：返回词语在原文的起止位置

注意，输入参数只接受 unicode

示例代码

result = jieba.tokenize(u'永和服装饰品有限公司')   #mode='search' 为搜索模式
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

输出结果

word 永和      start: 0        end:2
word 服装      start: 2        end:4
word 饰品      start: 4        end:6

word 有限公司 start: 6 end:10

并行分词

原理：将目标文本按行分隔后，把各行文本分配到多个 Python 进程并行分词，然后归并结果，从而获得分词速度的可观提升

基于 python 自带的 multiprocessing 模块，目前暂不支持 Windows

用法：只要在开始分词之前调用如下代码就可以实现并行分词

jieba.enable_parallel(4)# 开启并行分词模式，参数为并行进程数

jieba.disable_parallel() # 关闭并行分词模式

实验结果：在 4 核 3.4GHz Linux 机器上，对金庸全集进行精确分词，获得了 1MB/s 的速度，是单进程版的 3.3 倍。

注意：并行分词仅支持默认分词器 jieba.dt 和jieba.posseg.dt。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

erinapple

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python jieba分词_从零开始学自然语言处理（八）—— jieba 黑科技

weixin_39737368的博客

12-03

465

小编喜欢用 jieba 分词，是因为它操作简单，速度快，而且可以添加自定义词，从而让 jieba 分出你想要分出的词，特别适用于特定场景的中文分词任务。然鹅，万事都有两面性，jieba 分词这么好用，也难免有缺陷。第一大缺陷就是它占用内存太大了。jieba 分词自带了一套默认的字典文件dict.txt，存放在xx/Lib/site-packages/jieba路径下，文件大小接近 5M。...

jiaba库的使用

weixin_48437766的博客

11-22

1694

jiaba库的使用 jieba库是一款优秀的 Python 第三方中文分词库，jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。精确模式：试图将语句最精确的切分，不存在冗余数据，适合做文本分析全模式：将语句中所有可能是词的词语都切分出来，速度很快，但是存在冗余数据搜索引擎模式：在精确模式的基础上，对长词再次进行切分 1、jieba库的安装全自动安装：easy_install jieba 或者 pip install jieba / pip3 install ji

参与评论您还未登录，请先登录后发表或查看评论

结巴中文词频分析

weixin_34221773的博客

07-12

242

sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 结果保存在result.txt文档内 # -*- ...

句法分析的学习

赵小越的博客

06-20

818

句法分析(Sentence Parsing)有二层含义，一是指根据文法对一个句子进行分析，建立这个句子的语法树，即文法分析(Syntactic Parsing)；二是指对一个句子中各成分的语义进行分析，得到对这个句子的语义的一种描述，也就是语义树，即语义分析(Semantic Parsing)。【文法分析】背景：之前的套路，基于规则的方法，那...

jieba 结巴分词常用说明

热门推荐

王佩的CSDN博客

02-26

3万+

安装全自动：easy_install jieba 或者 pip install jieba 或者pip3 install jieba 手　动：jieba 目录放置于当前目录或者 site-packages 目录半自动：下载http://pypi.python.org/pypi/jieba/、解压、运行python setup.py install 算法

上手结巴分词文本分析，输出热词、TF-IDF权重和词频

liangyuna8787的博客

11-02

2178

前言舆情分析、文本分析，在做特征提取时，需要把一整段内容合并后，提取内容中的热词、F-IDF权重和词频，本编以python编程，分享如何通过结巴分词简易上手。代码讲解先给代码片段配内容讲解，篇尾给完整的python代码。 1、读取文本信息 import pandas as pd # 1.导入数据语料的特征源数据 #df_data = pd.read_table('data.txt', names=[ 'type', 'content'], encoding='utf-8')

java版本结巴分词

03-13

Java版本的结巴分词是基于Java实现的中文分词工具，它在处理中文文本时具有高效、灵活和易用的特点。...无论是基础的文本分析，还是复杂的NLP任务，都可以借助Java版结巴分词来提升处理效率和准确性。

jieba分词-情感分析-词云例子.ipynb.zip_jieba_meantu2t_snownlp_情感分析

09-25

在这个名为"jieba分词-情感分析-词云例子.ipynb.zip"的压缩包中，包含了一个关于中文文本处理的实例，主要涉及了三个关键的技术：jieba分词、meantu2t情感分析和snownlp库。下面将详细阐述这些技术及其在情感分析和...

结巴中文切词可用

06-13

结巴中文切词，可以直接用来切中文；txt、csv、excel都行

对Python中文分词模块结巴分词算法过程的理解和分析

weixin_30322405的博客

09-30

347

结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba 作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写. 以下是作者说明文件中提到的结巴分词用到的算法: 基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（D...

jieba分词实战

ustbbsy的博客

04-12

1万+

jieba是中文分词的一个模块，官方文档 jieba官方文档1，分词jieba分词常用的函数：jieba.cut() jieba.lcut() jieba.cut_for_search() jieba.lcut_for_search() jieba.Tokenizer(dictionary=DEFAULT_DICT)jieba.cut(sentence, cut_all=False, HMM=Tr...

用Python 3.5结巴分词包做词频统计

weixin_30443731的博客

02-07

663

工作中有的时候需要对文本进行拆分，然后分析词频，分词用结巴分词做了一个简单的，代码如下： import pandas ##引入pandas包 from pandas import Series as sr, DataFrame as df ##从pandas包引入Series与DataFrame格式 from collections import Counter as cr ##引...

python命名实体识别工具包结巴_分词、词性标注、命名实体识别、句法分析？三行Python代码调用斯坦福自然语言处理工具~...

weixin_33657398的博客

01-14

1265

工具简介对文本进行处理或分析时，我们往往会对其进行分词、词性标注等。目前开源可用的工具有Jieba、HanLP、ltp等。今天要介绍一款来自斯坦福NLP研究组的高质量的开源自然语言处理工具 Stanford CoreNLP，主要功能有分词、词性标注、命名实体识别、短语结构分析、依存句法分析。相较于市面上较为流行的自然语言处理工具，Stanford CoreNLP主要有以下优势：训练语料标注质量较高...

结巴分词，文本聚类，情感分析，词云图可视化

Luzaofa的博客

05-21

8061

import re import numpy import jieba import jieba.analyse # 提取关键内容 import jieba.posseg as pseg # 词性标注 from pymongo import MongoClient from sklearn.feature_extrac...

Python 中文分句

07-06

1万+

今天在某论坛中看到应用Python对中文进行分句的源码（http://www.corpus4u.org/forum/showthread.php?s=86a8e08ccda003206c8f8d66c011df67&t=8662&page=2），原理很简单，帖上来传播一下。注释是我自己加上去的。向原作者致谢！ # coding: utf-8 #设置分句的标志符号；可以根据实际需要进行修改

jieba分词

zhuzuwei的博客

01-10

2674

1. jieba.cut()：返回的是一个迭代器。参数cut_all是bool类型，默认为False，即精确模式，当为True时，则为全模式 2. jieba.lcut(): 返回的是列表。 3. jieba.cut_for_search()是搜索引擎模式 4. 添加自定义词典使用默认字典时，一些新的词汇无法正确分词 #添加自定义词典 text1 = '无妻徒刑,厉害炸...

python机器学习库教程——结巴中文分词

全栈工程师开发手册（原创）https://github.com/tencentmusic/cube-studio

12-09

1万+

全栈工程师开发手册（作者：栾鹏） python教程全解结巴中文分词安装：pip install jieba特点：支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典