python 爬取百度搜索结果url

最新推荐文章于 2024-05-27 16:30:19 发布

天眼1

最新推荐文章于 2024-05-27 16:30:19 发布

阅读量1.1k

点赞数 2

本文链接：https://blog.csdn.net/qq_39650046/article/details/109160169

版权

简单的爬取百度搜索结果url
先用了requests库来访问百度，再通过xpath来提取搜索后的结果

import requests
from lxml import etree

for i in range(0,100,10):#通过for循环来实现翻页
	url = 'https://www.baidu.com/s?wd=爬虫&pn=' + str(i)+ '&oq=爬虫'
	headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36'}
	r = requests.get(url, headers = headers ,timeout = 5).text
	
	a = etree.HTML(r)
	xpath = a.xpath('//*[@class="t"]/a/@href')#用xpath来提取百度搜索结果url链接
	for i in xpath:
		url = i 
		try:
			r = requests.get(url,headers = headers , timeout = 5)
			print(r.url)
		except:
			print('无法链接')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

天眼1

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
python 爬取百度搜索结果url

简单的爬取百度搜索结果url先用了requests库来访问百度，再通过xpath来提取搜索后的结果import requestsfrom lxml import etreefor i in range(1,11):#通过for循环来实现翻页 url = 'https://www.baidu.com/s?wd=爬虫&pn=10' + str(i*10)+ '&oq=爬虫' headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0;
复制链接

扫一扫