python re.sub_python里面re.sub()函数的使用方法

写爬虫的时候,我们要从网页代码里面提取特定的标签里面的内容,就要用到正则表达式。

re.sub()在python里面表示替换。

5e4e9c2b74ee1c327ee4c79807f1d8a727334b50.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

cca2552c56ee7b7fb9f2eac16ef4fcf5ef0d4150.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

3b8fb4d7726b0ce22d1ba2bbef781423bfb9b650.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

777f3fc2bbd6e1d03c140cd50d254193cfe8af50.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

工具/原料

电脑

python3+(anaconda版本)

jupyter编译器

方法/步骤

1

看下面的字符串,我们要提取出两个h标签:

text = '''

姓名:李隆基

,

打开第三方坤宁宫

'''

555acf0ff2260d9a6af2812d622abab84340a550.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

2

用正则表达式来匹配标签:

import re

htm = re.findall(r".*?\d>", text)

f0848bee41c1b727caaf903c1a2ca5cadde89850.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

3

或者简单点:

htm = re.findall(r"", text)

76b6860e5f2043712e27a094323acd8921c58f50.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

4

用空字符替换内容前面的标签:

k = re.sub("", "", t)

这里的空字符串,指的是没有任何内容,连空格也不要。

8974c38a59de4507f3fdaec45e413a8ca7088550.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

5

再把内容后面的标签去掉,就相当于保留正文内容:

h = re.sub("\d>", "", k)

51cd85cec7f88a77db211ef86e4a2f27e6eff850.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

简化

其实,上面的过程还可以进一步简化:

htm = re.findall(r"(.*?)\d>", text)

939c2d40b6f3918792e00f7424fce186252fef50.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

注意事项

替换函数,只在替换的时候,才能够起到好作用。若用来提取字符串,就会事倍功半。

经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。

举报作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。

展开阅读全部

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值