python中的jieba分词保留给定词汇

最新推荐文章于 2024-08-29 23:16:54 发布

CoAAColA

最新推荐文章于 2024-08-29 23:16:54 发布

阅读量3.1k

点赞数 4

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/CoAAColA/article/details/106689169

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

之前在做python的词云作业时，希望保留一些特定的词汇，但在网上没有找到方法，今天在上python课的时候老师给出了解答：

首先，调用jieba.load_userdict(文件名)，加载需要保留的词汇，文件内容是需要保留的词汇，然后使用jieba.lcut(text)即可对给定的文本进行分析，即可得到结果。

代码：

def cut_by_custom_dict(text=None):
    jieba.load_userdict('../data/user_dict.txt')
    return jieba.lcut(text)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CoAAColA

关注关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【收藏】Python jieba中文分词库介绍

DZ Space

06-29

3475

jieba 是最好的 Python 中文分词组件, 它简单易上手。 “结巴”中文分词：做最好的 Python 中文分词添加自定义词典载入词典开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率用法： jieba.load_userdict(file_name) # file_name 为......

python中文怎么通过jieba分词计算数量_python中文分词jieba总结

weixin_29531989的博客

01-29

2729

2.分词jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议...

参与评论您还未登录，请先登录后发表或查看评论

《自然语言处理》—— jieba库的介绍与使用

热门推荐

weixin_41168304的博客

12-03

3万+

用python对单一微博文档进行分词——jieba分词（加保留词和停用词）

jieba分词保留社交媒体中的表情符号

Yao_June的博客

03-04

684

社交媒体中的表情，经常是中括号+文字的形式，比如，[泪]。但是按默认的jieba分词，会把[泪]拆成[’[’,‘泪’,’]’]。如果我们想分词的时候保留"[泪]”怎么做呢？

结巴分词5--关键词抽取

weixin_33972649的博客

12-14

1990

作者：zhbzz2007 出处：http://www.cnblogs.com/zhbzz2007 欢迎转载，也请保留这段声明。谢谢！ 1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。除了这些，关键词还可以在文本聚类、分类、自动摘要等领域...

python中jieba分词，并输出词云（基础版）

青风learing

04-25

4146

环境与文件准备环境anaconda+pycharm，已经安装结巴库，wordcloud库，将0001-text.txt，stop_words.txt，dict.txt与新建py文件放到同一文件夹下。 0001-text.txt 内容如下，直接复制即可国务院办公厅关于发展众创空间推进大众创新创业的指导意见国办发〔2015〕9号各省、自治区、直辖市人民政府，国务院各部委、各直属机构：　　...

python 英语分词_python实现英文文本分词

weixin_39789525的博客

11-20

4481

广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！打算绘制中文词云图？那你得先学会如何做中文文本分词。跟着我们的教程，一步步用python来动手实践吧。? （由于微信公众号外部链接的限制，文中的部分链接可能无法正确打开。如有需要，请点击文末的“阅读原文”按钮，访问可以正常显示外链的版本。需求在《如何用python做词云》一文...

正向最大匹配分词算法及KNN文本分类算法python实现_knn中文文本分类算法python,文本自动分词1.给定一个分词词典;2.实现正向最大匹配算法对文本进

06-24

这份代码是我们专业的一个实验，内容包含了文本分词和文本分类。分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒，189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择，我测试时选择前100个...

python对文本进行分词_基于 python 对文本做分词、生成词云图

weixin_42153793的博客

02-03

4947

前一段时间，有个诉求，想了解下后台，大量反馈数据，其中重点集中在哪些内容。鉴于手边并无现成工具，可以想到快捷的办法是，对数据进行统一汇总，然后分词，将占比较高的关键词汇，生成词云图，从而形成对内容有大致解，为后面分析分析奠定方向。本文就如何基于 python 对文本做分词、快速生成词云图，做下探讨性分享。为何选择 pythonPython是一种易于学习又功能强大的编程语言。它优雅的语法和动态类型，...

【实例】python中jieba 添加自定义词语？

神创的博客

02-24

1万+

参考：http://blog.sina.com.cn/s/blog_7d8326290102vzpb.html分词词典：jieba.load_userdict(file_name) # file _name 为路径【例如：jieba.load_userdict("C:\\Users\\Luo Chen\\Desktop\\lixiaofu.txt")seg_list = jieba.cut("李小...

jieba词频统计、关键词提取、词云图制作

酱汁儿

03-27

6505

1、jieba分词及词频统计 import jieba import pandas as pd content = open('./测试.txt',encoding='utf-8').read() #分词 words = jieba.cut(content) word_list = list(word for word in words) #使用pandas统计并降序排列 df = pd....

Python jieba分词如何添加自定义词和去除不需要长尾词

编辑编辑器

02-28

1912

通过添加自定义词就可以看到，统计出来的词是这个自定义词本文主要介绍jieba的基础用法。如果觉得文章对你有用处，记得转发一波哦，博主也支持为铁粉丝制作专属动态壁纸哦~

【python】TXT文本数据清洗和英文分词、词性标注

喵喵喵

07-28

4500

去除空行 def clean_line(raw_file_name, save_file_name): with open(raw_file_name, 'r+') as f_r, open(save_file_name, 'w+') as f_w: f_r_list = list(set(f_r.readlines())) for sentence in f_r_list: if sentence == "\n":

jieba自定义词典包含特殊符号

qq_37280534的博客

07-03

763

1.原来：re_han_internal = re.compile(“([\u4E00-\u9FD5a-zA-Z0-9+#&._]+)”)2.现在：re_han_internal = re.compile(“(.+)”, re.U)参考链接：https://www.cnblogs.com/callyblog/p/10097847.html注：更改jieba根目录下的__init__.py文件下代码我试过在我这儿好像不起作用，直接更改re_han_internal就可以了，大家可以试一下，这样更改后在自定义词

Python---爬虫---清洗---jieba分词

weixin_41245276的博客

03-08

2424

jieba中文处理和拉丁语系不同，亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候，大部分情况下，词汇是我们对句子和文章理解的基础，因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具，是以分词起家的，但是功能比分词要强大很多。 1.基本分词函数与用法 jieba.cut 以及 jieba.cut_for_search 返回...

Python实现的汉语分词系统课程项目完整教程

资源摘要信息:"基于Python的汉语分词系统.zip"是一个包含了关于汉语自动分词技术的全面教程和相关软件资源的压缩包。该资源旨在使学习者能够深入了解汉语分词的各个阶段，从词典的构建、分词算法的实现，再到分词...