Python学习总结-字符串与文本

本文通过针对不同应用场景及其解决方案的方式,总结了Python中对字符串和文本的一些相关操作,具体如下:

1.使用多个界定符分割字符串
使用场景:需要将一个字符串分割为多个字段,但是分隔符并不是固定的
解决方案:当需要更加灵活的切割字符串的时候,使用re.split()

#示例1
line='aaaa fffff; ddddewd,ccccccc,rrrrrr,foo'
line.split(r'[;,\s]\s*')
import re 
re.split(r'[;,\s]\s*',line)

这里写图片描述

注意事项:
正则表达式中是否包含一个括号捕获分组,如果使用了分组捕获,那么被匹配的文本也将出现在结果列表中。
正则表达式总结 http://blog.csdn.net/arthur_02_13/article/details/56278564

这里写图片描述

2.将Unicode文本标准化
使用场景:处理Unicode字符串,需要确保所有字符串在底层有相同的表示
解决方案:某些字符能够用多个合法的编码表示

这里写图片描述
其中第一种使用的是整体字符(U+00F1),第二种使用的是拉丁字母n后面跟一个~的组合字符(U+0303。

通过normalize()第一个参数指定字符串标准化的方式。

这里写图片描述

3.在字符串中处理html和xml
使用场景:想要将HTML和XML实体日&entity;或&#code;替换为对应的文本,还需要转换文本中特定的字符如<>或&
解决方案:使用html.escape()

示例1 使用html.escape()替换文本字符串中的< 或 >

这里写图片描述

示例2 替换原始文本中的编码值

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值