python 文本处理保留中英文和标点符号_python-文本处理和正则表达式

最新推荐文章于 2023-04-06 14:19:00 发布

weixin_39692253

最新推荐文章于 2023-04-06 14:19:00 发布

阅读量2.9k

点赞数

文章标签： python 文本处理保留中英文和标点符号

本文记录了作者在工作中遇到的文本处理问题，如替换中文标点、替换和删除特定词等，探讨了如何使用Python的re模块通过正则表达式解决这些问题。文章分为问题描述、正则表达式的作用和基础知识、实例分析等部分，强调了正则表达式的高效性和灵活性，并提供了相关资源。

摘要由CSDN通过智能技术生成

【未完成初稿】

这周在工作中遇到很多需要从一段字符中增删查改的工作，第一遍用自己写的脚本去做，结果是可重用性不高，而且效率也不太好。其中也用到了python中的正则表达式部分re,后来就想能不能将我遇到的这类问题全部用正则去解决，具体就是python的re模块。答案目前还不知道，在还没遇到更多的问题之前，还是不要轻易下结论。这篇文章就当作一个备忘录，用来记录遇到的文本处理问题，其解决的办法，重点是正则表达式能做到的，因为它总比我们自己写的快嘛。

这篇文章分为几个部分：

1，遇到的文本处理的问题

2，正则能够解决的和不能解决的

3，正则的基本知识

4，python中re正则模块的学习

5，结合一些实例，用正则完整分析一个问题

6，有哪些不用正则也可以很好解决的

7，回顾和思考

8，资源

其中第1,2,5,6,7可能要不断更新的。

1，遇到的文本处理的问题

1.1 将一个字符串中的所有中文标点符号替换为英文的。

1.2 将字符串中某些词替换为另外一个词

1.3 删除字符串中的某些词

2，正则能够解决的和不能解决的

3，正则的基本知识

正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

3.2 一个简单的例子

从一段英语文字中找到单词hi,咋一看很简单，如果是在python中你可能只需要用str.find('hi')就可以找到它的第一个位置了，但除非你的句子中没有hight,shift...

包含hi的词，除非你不把Hi、HI也当成hi,除非...

使用正则表达式只要用\bhi\b就可以表达这个意思。首先，正则表达式会自动帮我们忽略大小写，然后，\b是正则表达式规定的一个特殊代码，代表着单词的开头或结尾，也就是单词的分界处，代表着hi这个词前后都被空格、逗号等等分割。

也就是说当我们要处理一段文本得到我们想要的东西的时候，要求太多，我们以为理所当然的事情计算机不会，我们需要用一套机制告诉它我们认为理所应当的规则，这就是正则表达式，它高度抽象、非常不好写。所以我们需要一个工具下载Regex Tester帮助我们，大概是这样的：

3.3 怎样写正则表达式

正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式。

正常的英语都是以a-z 26个字母组成的，而正则语句是由普通字符和元字符组成的，其中：

普通字符：所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

元字符：按功能分类，它包括非打印字符、特殊字符、限定符、定位符、

非打印字符

字符

描述

cx

匹配由x指明的控制字符。例如， cM 匹配一个 C

最低0.47元/天解锁文章

weixin_39692253

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。