requests.get批量爬取网页源码，然后用正则表达式匹配指定内容输出

最新推荐文章于 2024-05-06 01:00:00 发布

一个普通的瓜皮

最新推荐文章于 2024-05-06 01:00:00 发布

阅读量456

点赞数 1

文章标签： python 开发语言爬虫

本文链接：https://blog.csdn.net/qq_56780627/article/details/128599841

版权

for i in range(0, len(id)):

        #这里输入你想爬取的网址，我这里是拼接id，批量获取指定id的网页源码
    url = "https://bitterdb.agri.huji.ac.il/Receptor.php?id="+id[i]

        #由抓包工具可知使用get方法请求,这里verify参数设置成false的原因是开启ssl不用验证，不然会报错
        resp = requests.get(url,verify=False)

        #关闭连接
    resp.close()

        #utf-8解码成文本文件
a=resp.content.decode("utf-8","ignore")

        #去掉空格、\t ,\n, \r
a=a.replace(" ","")
a=a.replace('\t','')
a=a.replace('\n','')
a=a.replace('\r','')

        #用正则匹配目标文本  re.findall('正则表达式',a,re.S)
contents1 = re.findall('<divid="curRecepSequence">(.*?)</div>',a,re.S)
contents2 = re.findall('id=\\d+"target="_blank">(.*?)</a></label>{0,20}',a,re.S)

        #输出匹配到的文本
print(id[i])
print("**********************************************************")
print(contents1)
print("**********************************************************")
print(contents2)
print("**********************************************************")