python jieba中文文本切割成句子

Cocktail_py

于 2024-06-19 14:01:19 发布

阅读量433

点赞数 4

分类专栏：个人学习记录文章标签： python 开发语言自然语言处理

本文链接：https://blog.csdn.net/Cocktail_py/article/details/139801274

版权

个人学习记录专栏收录该内容

33 篇文章 4 订阅

订阅专栏

# -*- coding: utf-8 -*-
# @Time    : 2024/6/18 10:26
# @Author  : Cocktail_py
import jieba.posseg as pseg


def cut_sentences(text):
    """中文句子分割"""
    # 使用jieba的分句模块
    sentences = pseg.cut(text)
    result = []
    tmp = []
    for word, flag in sentences:
        if word in ['。','!','?'] and flag == 'x':  # 'x'表示单独一个句子
            tmp.append(word)
            if tmp:
                result.append(''.join(tmp))
                tmp = []
        else:
            tmp.append(word)
    if tmp:
        result.append(''.join(tmp))
    return result


text = "你好，我是小明。我今年18岁了。"
print(cut_sentences(text))

当遇到以下异常时降低jieba版本，改为jieba==0.40即可

TypeError: __repr__ returned non-string (type bytes)

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Cocktail_py

关注关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

python中文分句_python实现中文文本分句的例子

weixin_33514277的博客

01-14

952

对于英文文本分句比较简单，只要根据终结符"."划分就好，中文文本分句看似很简单，但是实现时会遇到很多麻烦，尤其是处理社交媒体数据时，会遇到文本格式不规范等问题。下面代码针对一段一段的短文本组成了文档分句import redef cut_sent(infile, outfile):cutLineFlag = ["？", "！", "。","…"] #本文使用的终结符，可以修改sentenceList...

python生态之中文文本分词处理，jieba库

dandan_xiaoa的博客

05-04

787

jieba是 Python 第三方中文分词库；共有以下三种模式 -精确模式把文本精确的切开，不存在冗余 -全模式把文本中可能的词语都扫描出来，有冗余 -搜索引擎模式在精确模式的基础上，对长词再次切分 [实例 ] import jieba str = '中华人民共和国是伟大的' #精确模式，返回一个列表类型的分词结果 result_1 = jieba.lcut(str) #...

参与评论您还未登录，请先登录后发表或查看评论

Python对文本进行分句

Blue&boke

06-19

2035

1、根据标点符号对一段话进行分句。2、根据序号对一段话进行切分。

二级python基础之jieba库分词

qq_36108664的博客

08-13

1189

jieba库概述 jieba是优秀的中文分词第三方库中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库，需要额外安装 jieba库提供三种分词模式，最简单只需掌握一个函数 jieba库的安装 (cmd命令行) pip install jieba jieba分词的原理 jieba分词依靠中文词库利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果除了分词，用户还可以添加自定义的词组 jieba分词的三种模式精确模式、全模式、搜索引擎模式

Python中文文本分句

wr1997的博客

07-31

1811

参考博客：https://blog.csdn.net/blmoistawinde/article/details/82379256 该博客将引号的情况也考虑进来，然后实践中发现还有括号的问题。 import re def cut_sent(para): para = re.sub('([。！？\?])([^”’])', r"\1\n\2", para) # 单字符断句符 ...

python实现中文文本分句的例子

09-19

今天小编就为大家分享一篇python实现中文文本分句的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

基于Python实现中文文本关键词抽取的三种方法.zip

06-22

测试数据集可采集多个分类的长文本，与之对应的聚类算法KMeans()函数中的n_clusters参数就应当设置成分类的个数；根据文档的分词结果，去除掉所有文档中都包含某一出现频次超过指定阈值的词语等等。详细介绍参考：...

python实现将汉字保存成文本的方法

09-19

### Python 实现将汉字保存成文本的方法在Python编程中，处理中文字符并将其保存到文本文件是一项常见的任务。本文将详细介绍如何使用Python将含有汉字的字符串保存为文本文件，并确保编码正确无误。 #### 一、...

用Python实现大文本文件切割的方法

09-19

### 用Python实现大文本文件切割的方法在日常的工作中，我们经常遇到需要处理大量数据的情况，特别是当数据量非常大时，如何有效地管理和处理这些数据成为了一个挑战。有时候，由于软件的功能限制或性能问题，我们...

python将文本转换成图片输出的方法

12-25

本文实例讲述了python将文本转换成图片输出的方法。分享给大家供大家参考。具体实现方法如下： #-*- coding:utf-8 -*- from PIL import Image,ImageFont,ImageDraw text = u'欢迎访问软件开发网,//www.jb51.net' ...

基于Python的文本分类系统设计与实现.zip

06-22

本系统采用深度学习中的卷积神经网络作为文本分类的方法之一，旨在将原始文本归类到预先设定的分类体系中。本方法包括 1）数据集预处理，包括数据集格式化、分词、去停用词、文本截取和补齐、构建词汇表等；2）模型...

jieba，为中文分词而生的Python库

weixin_43790276的博客

04-16

4434

jieba，为中文分词而生的库

自然语言处理学习3：中文分句re.split()，jieba分词和词频统计FreqDist

热门推荐

zhuzuwei的博客

05-28

2万+

1. 使用re.split() 分句，re.split(delimiter, text) import jieba import re # 输入一个段落，分成句子，可使用split函数来实现 paragraph = "生活对我们任何人来说都不容易！我们必须努力，最重要的是我们必须相信自己。 \ 我们必须相信，我们每个人都能够做得很好，而且，当我们发现这是什么时，我们必须努力工作，直到我们成功...

jieba--做最好用的中文分词组件详解【1】（精确模式、全模式、搜索模式分词）

ssjdoudou的博客

11-16

2万+

写在最前面：今天只做基础使用介绍，关于分词使用的算法、模型会在下面的博客详细介绍。特点： jieba是一款中文分词组件，支持python2，3 支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于...

python中文分词库jieba使用方法详解

01-20

安装python中文分词库jieba 法1：Anaconda Prompt下输入conda install jieba 法2：Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence, cut_all=False, HMM=True) 返回生成器，遍历生成器即可获得分词的结果 lcut(sentence) 返回分词列表 import jieba sentence = '我爱自然语言处理' # 创建【Tokenizer.cut 生成器】对象 generator = jieba.cut(sentence) # 遍历生成器，打印分词结果

python中语句的切分问题，中文语句的切分，英文语句的切分，jieba.cut()

yyf_blog

09-11

8672

英文语句的切分英文语句可以直接采用正则表达式中的split函数进行切分参考：python中re.split()的用法中文语句的切分中文语句采用python的第三方组件jieba进行切分参考：python中文分词组件–jieba import jieba s=u'今年国庆节打算去海南岛度假' cut_s=jieba.cut(s) print('cut_s:',cut_s) l_cut_s=...

python中文文本分析_python--文本分析

weixin_39958366的博客

11-21

4395

一. 导读文本分析主要用来分词分析，情感分析以及主题分析,参考知乎用户的文章，他从方法代码上讲解了中英文分词(wordcloud,jieba)，中英文情感分析(textblob,snownlp)，以及主题分析(LDA).应某位同学的要求，要处理文档里的分词，主题的统计功能，故本人做了个通用的小脚本,功能如下:1. 词频取词，并生成气泡图2. 重要性取词，并生成气泡图3. 主题取词, 并导出htm...

Python利用jieba分词提取字符串中的省市区(字符串无规则)