自然语言处理课程自学笔记(一)之python正则表达式

处理字符的强有力的工具。

字符串操作

(1)去空格及特殊符号:
这里写图片描述
(2)连接字符串:
这里写图片描述
(3)查找字符:
这里写图片描述
若查找模式串则需要用正则表达式。
(4)比较字符串:
以前是cmp函数,现在改为operator。
这里写图片描述
这里写图片描述
函数返回布尔值(True or False)。
(5)字符串中大小写转换:
这里写图片描述
(6)翻转字符串:
这里写图片描述
(7)查找字符串:
这里写图片描述
(8)分割字符串:
第一种:
这里写图片描述
第二种:
这里写图片描述
(9)计算字符串中出现频次最多的字母:
第一种:
这里写图片描述
第二种:
这里写图片描述
第三种:
这里写图片描述

正则表达式

是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。在一些复杂的情况下才会用到。
效率比str略差,但匹配功能强很多。
不是python独有的,其他语言也有。

语法
当你想要匹配一个/多个/任意个数字/字母/非数字/非字母/某几个字符/任意字符,想要贪婪/非贪婪匹配,想要捕获匹配出来的第一个/所有内容的时候,一下可以参考:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

常用的有
. 匹配除掉换行符以外的所有字符
\d 匹配所有的数字
\D 匹配除数字以外的所有的字符
\s 匹配空格、换行符、Tab等(肉眼所见为空白的字符)
\S 匹配除空格、换行符、Tab等以外的所有字符
\w 匹配单词字符(a-z,A-Z,0-9,_)
\W 匹配除单词字符以外所有的字符
[] 匹配括号中的字符(自己制指定)
\d{2} 匹配2个一起的数字字符
\d{2,4} 匹配2个一起/3个一起/4个一起的数字字符
? 匹配前面字符0次/1次 (abc?—-ab/abc)
+ 匹配前面字符1次或无限次 (abc+ —-abc/abcccc)
* 匹配前面字符0次或无限次 (abc* —-ab/abcccc)(a(bc)*——a/abcbcbcbc)
^w.*e$ 匹配以w开头,以e结尾的字符串
(at)|(ve) 匹配所有的at和ve

python案例

python通过 re模块提供对正则表达式的支持。

使用re步骤:
(1)将正则表达式的字符串形式编译为Pattern实例。
(2)使用Pattern实例处理文本并获得匹配结果(一个Match实例)
(3)使用Match实例获得信息,进行其他操作。
这里写图片描述

关于re.compile(strPattern[ ,flag])
这里写图片描述
flag可加可不加。

关于Match
这里写图片描述
这里写图片描述
这里写图片描述
例子:
这里写图片描述
这里写图片描述

关于Pattern
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值