Python Cookbook --第二章:字符串和文本(1)

        章节概述:几乎所有有用的程序都会涉及到某些文本处理,不管是解析数据还是产生输出。这一章将重点关注文本的操作处理,比如提取字符串,搜索,替换以及解析等。大部分的问题都能简单的调用字符串的内建方法完成。但是,一些更为复杂的操作可能需要正则表达式或者强大的解析器,所有这些主题我们都会详细讲解。并且在操作 Unicode时候碰到的一些棘手的问题在这里也会被提及到。

问题1:使用多个界定符分隔字符串

需要将一个字符串分隔为多个字段,但是分隔符(还有周围的空格)并不是固定的。

  • String对象的split()方法只适应于非常简单的字符串分割情形,它并不允许有多个分隔符或者分隔符周围不确定的空格。此时使用re.split()方法是最好的。
>>> line = "asdf fedsf; fdswf, few,fds, fgs"

>>> import re

>>> re.split(r"[;,\s]\s*",line)

['asdf', 'fedsf', 'fdswf', 'few', 'fds', 'fgs']
  • 使用re.split()时需要注意正则表达式中是否包含一个括号捕获分组,如果使用了捕获分组,那么被匹配的文本也将出现在结果列表中。示例如下:
>>> re.split(r"(;|,|\s)\s*",line)

['asdf', ' ', 'fedsf', ';', 'fdswf', ',', 'few', ',', 'fds', ',', 'fgs']

 

问题2:字符串开头或者结尾匹配

需要通过指定的文本模式去检查字符串的开头或者结尾,比如文件名后缀,URL Scheme等等。

  • 检查字符串开头或者结尾的一个简单方法是使用str.startswith()或者是str.endswith()方法。
>>> filename = "spam.txt"

>>> filename.endswith(".txt")

True

>>> url = "http://www.python.org"

>>> url.startswith("http:")

True
  • 如果想检查多种匹配可能,只需要将所有的匹配项放入到一个元组(必须放置元组中)中去,然后传给startswitn()或者endswith()方法。
>>> import os

>>> filenames = os.listdir('.')

>>> filenames

[ 'Makefile', 'foo.c', 'bar.py', 'spam.c', 'spam.h' ]

>>> [name for name in filenames if name.endswith(('.c', '.h')) ]  # 多种匹配放在元组中

['foo.c', 'spam.c', 'spam.h']



#any() --->只要()中不为空则为True,反之为False.

>>> any(name.endswith('.py') for name in filenames)

True
  • 使用切片也可以做,只是看起来没有没有那么优雅。
>>> filename = "spam.txt"

>>> filename[-4:] == ".txt"

True
  • 使用正则表达式也可以实现,但是对于简单的匹配过于大材小用
>>> import re

>>> url = "http://www.python.org"

>>> re.match("http:|https:|ftp:",url)

<_sre.SRE_Match object; span=(0, 5), match='http:'>

 

问题3:用Shell通配符匹配字符串

若要使用Unix Shell中常用的通配符(比如:*.py, Dat[0-9]*.csv等)去匹配文本字符串。

  • fnmatch模块提供了两个函数—fnmatch()和fnmatchcase(),可以用来实现这样的匹配。
#fnmatch()模块介绍

fnmatch(name, pat)

    Test whether FILENAME matches PATTERN.

    Patterns are Unix shell style:

    *       matches everything

    ?       matches any single character

    [seq]    matches any character in seq

    [!seq]    matches any char not in seq
>>> from fnmatch import fnmatch,fnmatchcase

>>> fnmatch("foo.txt","*.txt")

True

>>> fnmatch("foo.txt","?oo.txt")

True
  • fnmatch() 函数使用底层操作系统的大小写敏感规则 (不同的系统是不一样的) 来匹配模式。
>>> fnmatch("foo.txt","*.TXT")  #On windows

True



>>> from fnmatch import fnmatch

>>> fnmatch("foo.txt","*.TXT")  #On Ubuntu

False
  • fnmatchcase()是按照你的pattern来匹配的。不受操作系统干预。

 

问题4:字符串匹配和搜索

若需要匹配或者搜索特定模式的文本

  • 如果匹配的是字面字符串,那么通常只需要调用基本字符串方法就可以。比如:str.find(),str.endswith(),str.startswith()或者类似的方法。
>>> text = "year, 1028, but 2018, dsf year"

>>> text == "year"  #准确匹配

False

>>> text.endswith("year")  # 匹配结束

True

>>> text.startswith("year")  # 匹配开始

True

>>> text.find("2018")  #寻找,返回起始位

16

>>> text.find("hh")  # 若查找失败,则返回-1

-1
  • 对于复杂的匹配,需要使用正则表达式和re模块。
>>> import re

>>> date = "12/19/2018"

>>> re.match(r"\d+/\d+/\d+",date)

<_sre.SRE_Match object; span=(0, 10), match='12/19/2018'>

 

问题5:字符串搜索和替换

若需要在字符串中搜索和匹配指定的文本模式

  • 对于简单的字面模式,直接使用str.replace()方法即可。
>>> text = "year, 1028, but 2018, dsf year"

>>> text.replace("year","years")

'years, 1028, but 2018, dsf years'
  • 对于复杂的模式,则需要使用re.sub()函数。
sub(pattern, repl, string, count=0, flags=0)



>>> text = "Today is 12/19/2018.PyCon starts 3/13/2013"

>>> import re

>>> re.sub(r"(\d+)/(\d+)/(\d+)",r"\3-\1-\2",text)

'Today is 2018-12-19.PyCon starts 2013-3-13'

 

  • 如果多次用到相同的模式做匹配替换,考虑先编译它来提升性能。
>>> pattern = re.compile(r"(\d+)/(\d+)/(\d+)") #先进行编译

>>> pattern.sub(r"\3-\1-\2",text)

'Today is 2018-12-19.PyCon starts 2013-3-13'

 

问题6:字符串忽略大小写的搜索替换

需要以忽略大小写的方式搜索与替换文本字符串

  • 在处理文本时忽略大小写,可以使用re模块中提供的flags标志位àre.IGNORECASE。
>>> text = "year, but 2018, dsf Year"

>>> re.findall("year",text,flags=re.IGNORECASE)

['year', 'Year']

>>> re.sub("year","Python",text,flags=re.IGNORECASE)

'Python, but 2018, dsf Python'

 

问题7:最短匹配模式

当试图用正则表达式匹配某个文本模式时,但是它找到的是模式的最长可能匹配。但是需求却是查找最短的可能匹配。

  • 比如在匹配一对分隔符之间的文本的时候
>>> pattern = re.compile(r'\"(.*)\"')

>>> text1 = 'Computer says "no."'

>>> pattern.findall(text1)

['no.']

>>> text2 = 'Computer says "no." Phone says "yes."'  # *是贪婪操作符

>>> pattern.findall(text2)

['no." Phone says "yes.']
  • 为了让贪婪匹配变成非贪婪模式,只要在模式中的 * 操作符后面加上?修饰符。
>>> pattern = re.compile(r'\"(.*?)\"')

>>> pattern.findall(text2)

['no.', 'yes.']

通过在 * 或者 + 这样的操作符后面添加一个 ? 可以强制匹配算法改成寻找最短的可能匹配。

 

问题8:多行匹配模式

如果使用正则表达式去匹配一大块的文本,则需要跨多行去匹配。

  • 匹配C语言分割的注释:
>>> pattern = re.compile(r"/\*(.*?)\*/")  # . 无法匹配换行符

>>> pattern.match(text)

<_sre.SRE_Match object; span=(0, 9), match='/*ddasd*/'>

>>> text = '''/*ddas

... fdsfs*/'''

>>> pattern.match(text) #匹配失败,返回None

>>>
  • 为了修正这个问题,需要修改模式字符串,增加对换行的支持。
>>> pattern = re.compile(r"/\*((?:.|\n)*?)\*/")  # ?: 表示不保存分组

>>> pattern.match(text)

<_sre.SRE_Match object; span=(0, 14), match='/*ddas\nfdsfs*/'>

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值