python jieba分词教程_Python jieba 分词

weixin_39746229

于 2020-12-06 10:14:07 发布

阅读量95

点赞数

文章标签： python jieba分词教程

环境

Anaconda3 Python 3.6, Window 64bit

目的

利用 jieba 进行分词，关键词提取

代码

# -*- coding: utf-8 -*-

import jieba

import jieba.posseg as jbpos

import jieba.analyse as jbal

'''

词性说明:

a:形容词

d:副词

i:成语

m:数词

n:名词

nr:人名

ns:地名

nt:机构团体

nz:其他专有名词

t:时间

v:动词

x:标点符号

f:方位词

un:未知

'''

string1 = "国内掀起了大数据、云计算的热潮。"

# 全模式

w1 = jieba.cut(string1, cut_all=True)

# for i in w1:

# print(i)

# 精准模式，默认是精准模式

w2 = jieba.cut(string1)

# for i in w2:

# print(i)

# print("")

# 搜索引擎模式

w3 = jieba.cut_for_search(string1)

# for i in w3:

# print(i)

# print("")

# 词性标注

w4 = jbpos.cut(string1)

# for i in w4:

# print(i.word + "--" + i.flag)

# print("")

# 词典加载

# jieba.load_userdict("dict2.txt")

string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"

#word 词语，flag 词性

w5 = jbpos.cut(string2)

for i in w5:

print(i.word + "--" + i.flag)

print("\n")

# 更改词频-单个词

jieba.suggest_freq("大数据", True)

jieba.suggest_freq("云计算", True)

w6 = jbpos.cut(string2)

for i in w6:

print(i.word + "--" + i.flag)

print("\n")

# 动态修改词典删除词 del_word

jieba.add_word("仙鹤门")

w7 = jbpos.cut(string2)

for i in w7:

print(i.word + "--" + i.flag)

print("\n")

# 提取关键词第二个参数控制提取参数个数

w8 = jbal.extract_tags(string2, 5)

print(w8)

View Code

结果展示

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39746229

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

分词_python分词_

09-30

利用python对三体进行分词并进行词频统计

stoplist_jieba_python_分词_

10-01

标题“stoplist_jieba_python_分词_”暗示了我们将在Python环境下使用jieba库进行文本处理，特别是关于分词的部分。在这个过程中，我们可能会遇到一个名为“stoplist.txt”的文件，它通常包含了停用词列表，这些词汇...

参与评论您还未登录，请先登录后发表或查看评论

hmm_HMM_python_中文分词_

10-02

基于隐马尔可夫算法，中文分词模型，字典，训练集

Python3高级教程_python3_高级教程_电子版_

09-29

本教程旨在帮助那些已经掌握Python3基础知识的学习者进一步探索其高级特性和应用。一、函数式编程 Python3支持函数式编程风格，包括高阶函数、闭包和装饰器。高阶函数如`map()`、`filter()`和`reduce()`可以简化...

python_python_python教程_源码

10-02

Python书籍

南京工业大学在辽宁2020-2024各专业最低录取分数及位次表.pdf

10-04

那些年，与你同分同位次的同学都去了哪里？全国各大学在辽宁2020-2024年各专业最低录取分数及录取位次数据，高考志愿必备参考数据

下单系统的Spnigboot和微信小程序实现（全栈微信小程式下单）.zip

10-04

下单系统的Spnigboot和微信小程序实现（全栈微信小程式下单）

基于Java开发的智能文件管家设计源码

10-04

该项目是一款基于Java的智能文件管家设计源码，涵盖102个文件，包括29个Java源文件、27个类文件、19个XML配置文件、10个YAML文件、8个列表文件、4个属性文件、4个JAR包文件以及1个Git忽略文件。该系统旨在提供高效便捷的文件管理解决方案。

基于YoloV8的简单目标检测和跟踪，使用KMNET进行鼠标移动（处理多目标移动抖动，处理鼠标平滑移动）.zip

10-04

基于YoloV8的简单目标检测和跟踪，使用KMNET进行鼠标移动（处理多目标移动抖动，处理鼠标平滑移动）

基于Vue和JavaScript的心旅途个性化推荐旅游平台设计源码

10-04

本项目是一款基于Vue和JavaScript开发的心旅途个性化推荐旅游平台设计源码，整合了513个Java文件、76个PNG图片、70个XML配置文件、62个JavaScript文件、42个Vue组件文件、28个CSS样式文件、22个HTML文件、18个YAML配置文件、16个属性文件、11个Vue模板文件，总计919个文件。平台采用现代化前端技术堆栈，旨在为用户提供个性化的旅游推荐服务。

基于Python的AutoLine自动化测试开源平台设计源码

10-04

AutoLine是一个基于Python的通用自动化测试开源平台，包含了657个文件，涵盖228个PNG图片、209个CSS样式、95个JavaScript脚本、39个Python源代码、21个HTML文件、19个XML文件、14个GIF图片、6个DS_Store文件、5个文本文件、4个Markdown文件。该平台的设计源码由多种编程语言编写，旨在提供灵活高效的自动化测试解决方案。

微信小程序图像裁剪工具_ e-cropper.zip

10-04

微信小程序图像裁剪工具_ e-cropper

基于MATLAB的答题卡识别系统带一个GUI可视化界面，通过输入答题卡旋转校正，边缘检测，霍夫曼变换检测答题卡填涂区域

最新发布

10-04

【作品名称】：基于MATLAB的答题卡识别系统。带一个GUI可视化界面，通过输入答题卡旋转校正，边缘检测，霍夫曼变换检测答题卡填涂区域【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【项目介绍】：传统的阅卷方式为流水线的手工作业方式。这样的方式存在很多的问题，因为很容易受到阅卷者的主观因素的影响，从而产生一定的偏差。所以很多人就讨论如何将人为的因素降低到最低，来确保考生的考试成绩的公平公正和准确。基于MATLAB的答题卡识别系统。带一个GUI可视化界面，通过输入答题卡旋转校正，边缘检测，霍夫曼变换检测答题卡填涂区域，分割，识别属于ABCD等，通过和实现设置好的标准答案excel对比，从而得出最终分数【资源声明】：本资源作为“参考资料”而不是“定制需求”，代码只能作为参考，不能完全复制照搬。需要有一定的基础能够看懂代码，能够自行调试代码并解决报错，能够自行添加功能修改代码。

湘南学院在辽宁2020-2024各专业最低录取分数及位次表.pdf

10-04

那些年，与你同分同位次的同学都去了哪里？全国各大学在辽宁2020-2024年各专业最低录取分数及录取位次数据，高考志愿必备参考数据

基于Java核心技术的Nacos配置中心设计源码解析与实现

10-04

本项目深入解析并实现了基于Java核心技术的Nacos配置中心，包含2707个文件，涵盖2180个Java源文件、177个JavaScript文件、52个XML文件、35个SCSS文件、22个PEM文件、20个属性文件、18个Markdown文件、16个Protocol Buffers文件、12个JSON文件、11个字体文件。项目涉及多种语言和技术，旨在提供一个全面的配置中心解决方案。

枝晶生长Comsol仿真模型锂枝晶生长过程的枝晶生长Comsol仿真模型锂枝晶生长过程的枝晶形貌，温度场耦合，应力场

10-04

枝晶生长Comsol仿真模型。锂枝晶生长过程的枝晶生长Comsol仿真模型。锂枝晶生长过程的枝晶形貌，温度场耦合，应力场，浓度场，电势场。 C++程序，基于元胞自动机法模拟枝晶生长，能实现任意角度（偏心正方算法），同时采用LBM考虑了对流作用对枝晶生长的影响

基于Python、CSS、HTML、JavaScript的apple_pro客户关系管理sys组件化开发设计源码

10-04

本项目为apple_pro客户关系管理系统的组件化开发源码，采用Python、CSS、HTML和JavaScript等多种语言编写，总计包含1078个文件。其中，Python源文件254个，Python编译后文件244个，CSS样式文件65个，HTML模板61个，JavaScript脚本40个，以及其他类型文件如LESS、SCSS、XML、PNG等。该系统通过组件化设计，旨在提升客户关系管理的效率与用户体验。

微信小程序日历插件_Calendar.zip

10-04

微信小程序日历插件_Calendar

中国海洋大学在辽宁2020-2024各专业最低录取分数及位次表.pdf

10-04

那些年，与你同分同位次的同学都去了哪里？全国各大学在辽宁2020-2024年各专业最低录取分数及录取位次数据，高考志愿必备参考数据

Pythonjieba分词教程：安装与基本使用

"这篇文档详细介绍了Python中jieba库的使用方法，主要涵盖jieba的安装、基础分词操作以及不同分词模式的运用。" 在Python的自然语言处理领域，jieba是一个不可或缺的工具，它专为中文分词而设计，能够高效地将连续...