python统计汉字和标点_Python处理中文标点符号大集合

最新推荐文章于 2024-06-30 03:31:34 发布

小小哈密瓜

最新推荐文章于 2024-06-30 03:31:34 发布

阅读量2.2k

点赞数

文章标签： python统计汉字和标点

本文链接：https://blog.csdn.net/weixin_36372610/article/details/111982574

版权

本文介绍了在Python中处理中文标点符号的几种方法，包括使用zhon库获取中文标点集合、通过正则表达式去除或保留特定标点、以及按Unicode码范围进行清洗。还提供了一个综合的`remove_punctuation`函数，可以根据需求选择是否保留字母、数字和中文。

摘要由CSDN通过智能技术生成

中文文本中可能出现的标点符号来源比较复杂，通过匹配等手段对他们处理的时候需要格外小心，防止遗漏。以下为在下处理中文标点的时候采用的两种方法:

中文标点集合

比较常见标点有这些：

！？｡＂＃＄％＆＇()＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏.

调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。

如果想用英文的标点，则可调用string包的string.punctuation函数可得到：

!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~

因此，比如需要将所有标点符号去除，可以进行以下操作：

>>> import re

>>> from zhon.hanzo import punctuation

>>> line = "测试。。去除标点。。"

>>> print re.sub("[{}]+".format(punctuation), "", line.decode(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小小哈密瓜

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python替换所有标点符号 正则_Python处理中文标点符号大集合

weixin_39925031的博客

11-23

2273

中文文本中可能出现的标点符号来源比较复杂，通过匹配等手段对他们处理的时候需要格外小心，防止遗漏。以下为在下处理中文标点的时候采用的两种方法:中文标点集合比较常见标点有这些：！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏.调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文...

python 文本处理保留中英文和标点符号_python-文本处理和正则表达式

weixin_39692253的博客

12-03

2980

【未完成初稿】这周在工作中遇到很多需要从一段字符中增删查改的工作，第一遍用自己写的脚本去做，结果是可重用性不高，而且效率也不太好。其中也用到了python中的正则表达式部分re,后来就想能不能将我遇到的这类问题全部用正则去解决，具体就是python的re模块。答案目前还不知道，在还没遇到更多的问题之前，还是不要轻易下结论。这篇文章就当作一个备忘录，用来记录遇到的文本处理问题，其解决的办法，重点是正...

参与评论您还未登录，请先登录后发表或查看评论

Python处理中文标点符号大集合

01-20

中文文本中可能出现的标点符号来源比较复杂，通过匹配等手段对他们处理的时候需要格外小心，防止遗漏。以下为在下处理中文标点的时候采用的两种方法: 中文标点集合比较常见标点有这些：！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟:wavy_dash:〾〿–—‘'‛“”„‟…‧﹏. 调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。如果想用英文的标点，则可调用string包的string.punctuation函数可得到： !#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ 因此，比如需要将

Python标点符号 逗号，下划线_ 冒号 : 点号 . 斜杠 \ 各种括号

热门推荐

啥也不是的博客

06-16

1万+

1.逗号在参数传递中的使用：例如def abc(a,b)或者abc(1,2) 2.逗号在类型转化中的使用主要是元组的转换逗号在输出语句print中的妙用:

python如何去除中文标点符号_python中如何去除标点符号

weixin_39625709的博客

11-27

1446

Python去掉标点符号的方法如下：方法一：str.isalnum：S.isalnum() -> bool返回值：如果string至少有一个字符并且所有字符都是字母或数字则返回True,否则返回False。实例:>>> string = "Special $#! characters spaces 888323">>> ''.join(e for e in string if e.isalnu...

一行Python代码过滤标点符号等特殊字符

09-18

总结以上内容，我们了解到使用Python的`re`模块和正则表达式可以有效地过滤掉字符串中的标点符号和其他特殊字符。通过编写适当的正则表达式，我们可以灵活地定义需要过滤的字符集。在实际应用中，可能需要根据具体...

python 判断中英文标点符号

weixin_35927509的博客

06-30

278

Python文本处理——中文标点符号处理

weixin_34211761的博客

11-23

1991

中文文本中可能出现的标点符号来源比较复杂，通过匹配等手段对他们处理的时候需要格外小心，防止遗漏。以下为在下处理中文标点的时候采用的两种方法，如有更好的工具，请推荐补充。中文标点集合比较常见标点有这些：！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏. 调用zhon包的zhon.hanzi.pu...

python中标点符号大全及名字_常见的标点符号大全及名字

weixin_39604139的博客

12-21

826

标点符号是辅助文字记录语言的符号，是书面语的组成部分，用来表示停顿、语气以及词语的性质和作用。接下来给大家分享常见的标点符号名字及用法。标点符号大全及名字1.句号：【。】用于句子末尾，表示陈述语气。有时也可表示较缓和的祈使语气和感叹语气。2.问号：【？】用于句子末尾，表示疑问语气(包括反问、设问等疑问类型)。在多个问句连用或表达疑问语气加重时，可叠用问号。3.叹号：【！】用于句子末尾，主要表示感叹...

python bottle api_开始Python学习之旅

weixin_39731682的博客

11-14

235

其实从一开始知道广州初中要教Python的时候，我就知道我之前所报班学的Python可以派上用场了，不过时隔一年，我也忘记的差不多了。做程序员的人似乎都对自己惯用的编程语言感到非常满意，经常diss其他写其他语言的，或是鄙视，但出乎意料的是，他们似乎都对Python很友好。Python的语言精练，易学的特点让它在诞生至今的三十多年里，逐渐变成主流。我们所熟知的很多...

python如何去除中文标点符号_python – 从字符串中去除标点符号的最佳方...

weixin_39600704的博客

11-27

627

从效率的角度来看,你不会打败s.translate(None, string.punctuation)对于更高版本的Python,请使用以下代码：s.translate(str.maketrans('', '', string.punctuation))它使用查找表在C中执行原始字符串操作 – 除了编写自己的C代码之外,没有什么能比这更好.如果速度不是担心,另一个选择是：exclude = set...

python标点符号分中英文嘛,简洁的标点符号并分成单词python

weixin_30715739的博客

03-26

629

学习python目前还有一点问题.我试图从另一个子程序中取一条线并将其转换为单独的单词,除了少数几个之外,它们已经被删除了标点符号.该程序的输出应该是它显示的单词和行号.应该是这样的 – >字：[1]输入文件：please. let! this3 work.I: hope. it worksand don't shut up码：def createWordList(line):wordLis...

标点符号在Python字符串格式化中的应用

m0_37587804的博客

06-23

870

本文主要总结Python花括号{}中的一些符号在字符串格式化中的应用。

25.Spring 常用注解

最帅程序猿的博客

10-20

179

@Controller - 用于 Spring MVC 项目中的控制器类。 @Service - 用于服务类。 @RequestMapping - 用于在控制器处理程序方法中配置 URI 映射。 @ResponseBody - 用于发送 Object 作为响应，通常用于发送 XML 或 JSON 数据作为响应。 @PathVariable - 用于将动态值从 URI 映射到处理程序方法参数。 @Autowired - 用于在 spring bean 中自动装配依赖项。 @Qualifier - 使用 @Au

Python 集合符号

牧牛人Alec

04-23

2237

Python 集合符号 & 求交集 l 求并集 ^ 交叉补集 - 求差集 > = < = posted @ 2018-04-23 21:00 牧牛人阅读(...) 评论(...) 编辑收藏 ...

delphi 去掉字符串中所有的标点符号_Python中正则表达式的简单运用

weixin_39818662的博客

11-27

451

1介绍正则表达式是一个特殊的字符序列，用来判断一个字符串与我们所设定的字符序列是否相匹配。实现快速检索文本和一些替换文本的操作。在Python中我们有专门的正则表达式模块re，re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能...

数学_拔剑-浆糊的传说_新浪博客

拔剑—浆糊的传说

10-24

183

+　 plus　加号；正号 -　 minus　减号；负号 ±　plus or minus　正负号 ×　is multiplied by　乘号 ÷　is divided by　除号＝　is equal to　等于号 ≠　is not equal to　不等于号 ≡　is equivalent to　全等于号 ≌　is equal to or approximately equal to　...

PYTHON编程统计并输出字符串 s 中汉字和标点符号的个数。