for i in range(0, len(id)):
#这里输入你想爬取的网址,我这里是拼接id,批量获取指定id的网页源码
url = "https://bitterdb.agri.huji.ac.il/Receptor.php?id="+id[i]#由抓包工具可知使用get方法请求,这里verify参数设置成false的原因是开启ssl不用验证,不然会报错
resp = requests.get(url,verify=False)#关闭连接
resp.close()#utf-8解码成文本文件
a=resp.content.decode("utf-8","ignore")#去掉空格 、\t ,\n, \r
a=a.replace(" ","")
a=a.replace('\t','')
a=a.replace('\n','')
a=a.replace('\r','')#用正则匹配目标文本 re.findall('正则表达式',a,re.S)
contents1 = re.findall('<divid="curRecepSequence">(.*?)</div>',a,re.S)
contents2 = re.findall('id=\\d+"target="_blank">(.*?)</a></label>{0,20}',a,re.S)#输出匹配到的文本
print(id[i])
print("**********************************************************")
print(contents1)
print("**********************************************************")
print(contents2)
print("**********************************************************")
requests.get批量爬取网页源码,然后用正则表达式匹配指定内容输出
最新推荐文章于 2024-05-06 01:00:00 发布