python 常用中文分词工具

最新推荐文章于 2024-07-01 10:15:10 发布

TFknight

最新推荐文章于 2024-07-01 10:15:10 发布

阅读量3.8k

点赞数 1

分类专栏： python 文章标签：分词 NLPIR LTP 论文命名实体识别

本文链接：https://blog.csdn.net/gdufsTFknight/article/details/79928720

版权

本文探讨了在处理微博文本时，使用jieba、NLPIR和哈工大LTP三种Python分词工具的体验。jieba分词需将Unicode转为utf-8，NLPIR在论文中广泛使用，具有命名实体识别功能，而LTP也在命名实体识别方面表现出色。

摘要由CSDN通过智能技术生成

最近在做微博的文本处理,在分词工具的选择上,分别选择了:jieba \ NLPIR \ LTP

这三种分词工具,在这里分享下~

1.jieba 分词:

# -*- coding: UTF-8 -*-
import os
import codecs
import jieba
seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')

f1 = codecs.open("d2w_ltp.txt","w")
print "/".join(seg_list)

for i in seg_list:
    f1.write(i.encode("utf-8"))
    f1.write(str(" "))

效果:


邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。

这里面包括了结巴的分词和写入文件的形式

值得注意的是结巴分词出来的字符编码是 'Unicode' 编码,我们需要把 unicode -> utf-8

2.张华平老师的 NLPIR

(https://github.com/NLPIR-team/NLPIR)
<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

TFknight

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python 之分词工具

zgw555555的专栏

05-11

681

分词（Tokenization）是自然语言处理（NLP）中的一个基础任务，它涉及将连续的文本分解为词、短语或符号等有意义的单元。在中文文本处理中，分词尤为重要，因为中文句子不像英文那样有明显的空格分隔。Python提供了许多分词工具，这些工具基于不同的算法和模型，适用于不同的应用场景。jieba分词：jieba分词是目前Python中最为流行的中文分词工具之一。它支持三种分词模式：精确模式、全模式和搜索引擎模式。此外，jieba分词还提供了词性标注、关键词提取等功能。THULAC。

Python中文分词_中文分词软件

11-14

Python中文分词_中文分词软件，使用jieba字典

参与评论您还未登录，请先登录后发表或查看评论

对Python中文分词模块结巴分词算法过程的理解和分析

weixin_30322405的博客

09-30

345

结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba 作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写. 以下是作者说明文件中提到的结巴分词用到的算法: 基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（D...

Python实现简单的中文分词处理

最新发布

snow_love_xia的博客

07-01

376

python实现中文分词，jieba进行中文分词，jieba的使用

python之中文分词

weixin_41670928的博客

02-17

698

目录 1、安装和使用jieba 2、分词练习 3、为jieba添加自定义的词典 4、知识点普及 1）分词文件怎么写 2）jieba.cut()参数说明 1、安装和使用jieba 直接用命令：pip3 install jieba就可以了，如图所示表示成功。 2、分词练习 import jieba if __name__ == '__main__': seg_gu=...

python的中文分词

xukeke12138的博客

12-23

2977

中文分词 这里写目录标题中文分词基于词典的分词方法最大匹配算法：（正向/逆向）预处理优化基于统计的分词方法基于语义、理解的分词方法分词工具jieba算法：thula分词工具包练习基于词典的分词方法机械分词方法、字符串匹配的分词方法。按照一定的策略将待分词的汉字串与一个充分大的机器词典中的词条进行匹配。三个要素:1.分词词典 2.文本扫描顺序 3.匹配原则按照扫描句子的顺序，可以分为正向扫描、逆向扫描和双向扫描。匹配的原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。最大匹配算法：（正向/逆向）

Python 中文分词

weixin_38146606的博客

04-16

350

1. 安装jieba 打开cmd easy_install jieba 2. 分词 3. 关键词提取

chatgpt赋能python：Python的中文分词工具——jieba

suimodina的博客

06-16

281

中文是一种没有明显分隔符的语言，因此在文本处理和分析中需要将连续的文本分割成有意义的词语，称为中文分词。例如，将“我爱Python编程”分割成“我”、“爱”、“Python”、“编程”。jieba是一种Python中文分词工具，采用了基于前缀词典的分词方法，并且支持多种分词模式，如全模式、精确模式和搜索引擎模式等。jieba在分词效果和速度上都表现出色，因此在自然语言处理、搜索引擎优化等方面得到了广泛应用。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt。

Python-pkusegpython一个北大高准确度的中文分词工具包

08-10

《Python-PKUSEG：北京大学出品的高精度中文分词工具包详解》在Python的世界里，处理中文文本，尤其是进行自然语言处理（NLP）任务时，分词是至关重要的第一步。Python-PKUSEG是由北京大学开发的一款高效、易用的...

中文分词工具.docx

03-09

本文将对比分析三种常用的中文分词工具：Jieba、SnowNLP 和 THULAC。 1. Jieba（结巴）中文分词 Jieba 是一个广泛使用的 Python 中文分词组件，支持 Windows 和 Linux 平台。它提供了三种切词模式： - 全模式：尽...

中文分词程序Python版

11-01

中文分词程序Python版，算法是正向最大匹配效果不错，亲自编写的

python中文分词使用的中文文章

03-10

python中文分词使用的中文文章，里面冯唐的作品，具体网址：https://blog.csdn.net/LEE18254290736/article/details/88374929

python 中文分词

wds2006sdo的专栏

03-31

5426

最近要写一个计算两个句子相似度的程序，需要分词，因此上网找找有关Python分词的资料。看了别人的介绍，发现在python分词可选择中科院的分词和结巴分词，由于中科院分词要调用C++，所以我选择了结巴分词结巴分词速度还行，但没有停用词表。于是我将结巴分词包装了一下，加入百度停用词列表、哈工大停用词表扩展、四川大学机器智能实验室停用词库与中文停用词库这四个停用词库。结巴分词G

python中文分词工具jieba_Python 流行的中文分词工具之一 jieba

weixin_34006342的博客

02-03

1024

jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理，以及实现细节对jieba进行了详细的阅读。读代码之前，我有几个问题是这样的：分词工具的实现都有哪几个步骤?结巴分词的文档说是使用了HMM模型，但是HMM 模型是如何运用在分词工具中的？，以及模型是如何产生的？几乎所有的分词工具都支持用户添加词库，但是用户词库到底在分词过程中扮演什么角色？简介jieba 分...

python 分词工具

加菲猫小站

05-21

204

在python这pymmseg-cpp 还是十分方便的！步骤: 1 下载mmseg-cpp的源代码 http://code.google.com/p/pymmseg-cpp/ 2 tar -zxf pymmseg-cpp*.tar.gz //解压后得到pymmseg 目录 cd pymmseg\mmseg-cpp python b...

python中文分词介绍

WIndy_Sweety的博客

06-04

1104

一、jieba分词 1、精确模式（默认）：试图将句子最精确地切开，适合文本分析； seg = jieba.cut(“这是一段中文字符”, cut_all = False) 不加cut_all 为默认的精确模式 2、全模式，把句子中所有的可以成词的词语都扫描出来，但是不能解决歧义； seg = jieba.cut(“这是一段中文字符”, cut_all = True) 3、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。 seg =j

python中文单词_python中文分词

weixin_39668479的博客

12-13

127

使用nltk来处理中文资料nltk怎么样使用中文?这是个大问题。这么个工具目前只能比较好的处理英文和其他的一些拉丁语系，谁让别人的单词与单词之间有个空格隔开呢！中文汉字一个挨一个的，nltk在分词这一关就过不去了，分词没法分，剩下的就都做不了。唯一能做的，就是对网上现有的中文语料进行处理，这些语料都分好了词，可以使用nltk进行类似与英文的处理。python处理中文首先需要设置一下文本的编码，文件...

Python中文分词神器---jieba

两个月亮

10-19

2325

相比英语等语言，用中文写成的文章往往更难分词。英语文章可以用空格来进行单次的区分，而中文词组则连成一片。让机器将中文词组分离的难度远大于在文言文分词题挣扎的我们，而Python的第三方库jieba就是用来处理这个问题的，让机器也能分离中文词组。相比于其他免费中文分词库，jieba是更加成熟的。像是公司名，地名，这类词也能够被jieba识别出来。新词的含义是指在训练jieba时，没有出现在数据集中的词。新词识别基于Viterbi算法。开发者可以指定自己自定义的词典，以便包含jieba词库里没有的词。

python英文分词工具有哪些

06-01

常用的Python英文分词工具包括： 1. NLTK (Natural Language Toolkit)：一个广泛使用的Python自然语言处理工具包，其中包括多种分词器。 2. spaCy：一个现代化的自然语言处理库，包含了高性能文本处理工具，支持...

python 常用中文分词工具

1.jieba 分词:

2.张华平老师的 NLPIR

(https://github.com/NLPIR-team/NLPIR)<

(https://github.com/NLPIR-team/NLPIR)
<