【未完成初稿】
这周在工作中遇到很多需要从一段字符中增删查改的工作,第一遍用自己写的脚本去做,结果是可重用性不高,而且效率也不太好。其中也用到了python中的正则表达式部分re,后来就想能不能将我遇到的这类问题全部用正则去解决,具体就是python的re模块。答案目前还不知道,在还没遇到更多的问题之前,还是不要轻易下结论。这篇文章就当作一个备忘录,用来记录遇到的文本处理问题,其解决的办法,重点是正则表达式能做到的,因为它总比我们自己写的快嘛。
这篇文章分为几个部分:
1,遇到的文本处理的问题
2,正则能够解决的和不能解决的
3,正则的基本知识
4,python中re正则模块的学习
5,结合一些实例,用正则完整分析一个问题
6,有哪些不用正则也可以很好解决的
7,回顾和思考
8,资源
其中第1,2,5,6,7可能要不断更新的。
1,遇到的文本处理的问题
1.1 将一个字符串中的所有中文标点符号替换为英文的。
1.2 将字符串中某些词替换为另外一个词
1.3 删除字符串中的某些词
2,正则能够解决的和不能解决的
3,正则的基本知识
正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
3.2 一个简单的例子
从一段英语文字中找到单词hi,咋一看很简单,如果是在python中你可能只需要用str.find('hi')就可以找到它的第一个位置了,但除非你的句子中没有hight,shift...
包含hi的词,除非你不把Hi、HI也当成hi,除非...
使用正则表达式只要用\bhi\b就可以表达这个意思。首先,正则表达式会自动帮我们忽略大小写,然后,\b是正则表达式规定的一个特殊代码,代表着单词的开头或结尾,也就是单词的分界处,代表着hi这个词前后都被空格、逗号等等分割。
也就是说当我们要处理一段文本得到我们想要的东西的时候,要求太多,我们以为理所当然的事情计算机不会,我们需要用一套机制告诉它我们认为理所应当的规则,这就是正则表达式,它高度抽象、非常不好写。所以我们需要一个工具下载Regex Tester帮助我们,大概是这样的:
3.3 怎样写正则表达式
正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式。
正常的英语都是以a-z 26个字母组成的,而正则语句是由普通字符和元字符组成的,其中:
普通字符:所有大写和小写字母、所有数字、所有标点符号和一些其他符号。
元字符:按功能分类,它包括 非打印字符、特殊字符、限定符、定位符、
非打印字符
字符
描述
cx
匹配由x指明的控制字符。例如, cM 匹配一个 C