使用正则表达式爬取网页文本

  • 字符串处理与替换
# coding = utf-8
import re

content = '''
<tr> <td> 1001 </td> <td> 杨秀璋<br /> </td> </tr>
<tr> <td> 1002 </td> <td> 颜 &nbsp;娜 </td> </tr>
<tr> <td> 1003 </td> <td> <B> Python </B> </td> </tr>
'''

res = r'<td>(.*?)</td><td>(.*?)</td>'
texts = re.findall(res,content,re.S|re.M)
for m in texts:
    print(m[0],m[1])

代码是基于python2.*
现在换了python3.*就得不到结果了
求问是三引号的问题还是正则表达式写法的问题?

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值