python 文本处理 保留中英文和标点符号_python-文本处理和正则表达式

本文记录了作者在工作中遇到的文本处理问题,如替换中文标点、替换和删除特定词等,探讨了如何使用Python的re模块通过正则表达式解决这些问题。文章分为问题描述、正则表达式的作用和基础知识、实例分析等部分,强调了正则表达式的高效性和灵活性,并提供了相关资源。
摘要由CSDN通过智能技术生成

【未完成初稿】

这周在工作中遇到很多需要从一段字符中增删查改的工作,第一遍用自己写的脚本去做,结果是可重用性不高,而且效率也不太好。其中也用到了python中的正则表达式部分re,后来就想能不能将我遇到的这类问题全部用正则去解决,具体就是python的re模块。答案目前还不知道,在还没遇到更多的问题之前,还是不要轻易下结论。这篇文章就当作一个备忘录,用来记录遇到的文本处理问题,其解决的办法,重点是正则表达式能做到的,因为它总比我们自己写的快嘛。

这篇文章分为几个部分:

1,遇到的文本处理的问题

2,正则能够解决的和不能解决的

3,正则的基本知识

4,python中re正则模块的学习

5,结合一些实例,用正则完整分析一个问题

6,有哪些不用正则也可以很好解决的

7,回顾和思考

8,资源

其中第1,2,5,6,7可能要不断更新的。

1,遇到的文本处理的问题

1.1 将一个字符串中的所有中文标点符号替换为英文的。

1.2 将字符串中某些词替换为另外一个词

1.3 删除字符串中的某些词

2,正则能够解决的和不能解决的

3,正则的基本知识

正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

3.2 一个简单的例子

从一段英语文字中找到单词hi,咋一看很简单,如果是在python中你可能只需要用str.find('hi')就可以找到它的第一个位置了,但除非你的句子中没有hight,shift...

包含hi的词,除非你不把Hi、HI也当成hi,除非...

使用正则表达式只要用\bhi\b就可以表达这个意思。首先,正则表达式会自动帮我们忽略大小写,然后,\b是正则表达式规定的一个特殊代码,代表着单词的开头或结尾,也就是单词的分界处,代表着hi这个词前后都被空格、逗号等等分割。

也就是说当我们要处理一段文本得到我们想要的东西的时候,要求太多,我们以为理所当然的事情计算机不会,我们需要用一套机制告诉它我们认为理所应当的规则,这就是正则表达式,它高度抽象、非常不好写。所以我们需要一个工具下载Regex Tester帮助我们,大概是这样的:

3.3 怎样写正则表达式

正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式。

正常的英语都是以a-z 26个字母组成的,而正则语句是由普通字符和元字符组成的,其中:

普通字符:所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

元字符:按功能分类,它包括 非打印字符、特殊字符、限定符、定位符、

非打印字符

字符

描述

cx

匹配由x指明的控制字符。例如, cM 匹配一个 C

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值