requests.get批量爬取网页源码,然后用正则表达式匹配指定内容输出

for i in range(0, len(id)): 

        #这里输入你想爬取的网址,我这里是拼接id,批量获取指定id的网页源码
        url = "https://bitterdb.agri.huji.ac.il/Receptor.php?id="+id[i]

        #由抓包工具可知使用get方法请求,这里verify参数设置成false的原因是开启ssl不用验证,不然会报错
        resp = requests.get(url,verify=False)

        #关闭连接
        resp.close()

        #utf-8解码成文本文件
        a=resp.content.decode("utf-8","ignore")

        #去掉空格 、\t  ,\n, \r
        a=a.replace(" ","")
        a=a.replace('\t','')
        a=a.replace('\n','')
        a=a.replace('\r','')

        #用正则匹配目标文本  re.findall('正则表达式',a,re.S)
       contents1 = re.findall('<divid="curRecepSequence">(.*?)</div>',a,re.S)
       contents2 = re.findall('id=\\d+"target="_blank">(.*?)</a></label>{0,20}',a,re.S)

        #输出匹配到的文本
        print(id[i])
        print("**********************************************************")
       print(contents1)
       print("**********************************************************")
       print(contents2)
       print("**********************************************************")

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值