Coursera - Using python to access web data week2 Note

本周学习内容笔记

1.Regular Expression Quick Guide

 

()用于截取匹配的字符串,举列

 

1 <p>Please click <a href="http://www.dr-chuck.com">here</a></p>
2 href="(.+)"匹配 http://www.dr-chuck.com
3 href=".+"匹配 href="http://www.dr-chuck.com/page2.htm"

2.翻译

dot .   asterisk * 

3.举列

^X.*:

以X开始,后面接任意数量的字母("."表示字母,"*"表示任意数量)且以":"结尾

^X-\S+:

以X-开始,接着是一个字符数大于0且没有空格的字符串,字符串的最后以":"结尾

4.re.findall() 返回所有匹配项

 

[0-9]+

任意0-9之间的数字,可以是多个数字。因为时findall()所以会返回所有的数字

 

5.Greedy Matching 贪心匹配

 

*和+都是向外搜索去匹配最大的可匹配项,当然也可以使用 *?、+?来实现非贪心匹配

 

Extracting Data

1.通过括号来微调匹配结果

 

普通的email提取

 

以"From "开头的Email提取

2.[^ ]用于排除字符

 

1 address=re.findall('@([^ ]*)',data)
2 print(address)

 

可以实现从@开始找,直到找到一个空格就停

3.[]内的"."

方括号内的"."并不代表任意字符,而仅仅代表"."

4.Escape Character, 字符前加"\"保留原意

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值