本来想学习一下动态网页的爬取,准备爬知乎
没想到啊没想到,爬到了一堆好东西


直接上代码
import requests
from lxml import etree
url='https://zhuanlan.zhihu.com/p/408232419'
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36 Edg/96.0.1054.29'
}
response=requests.get(url, headers=headers)
response.encoding='utf-8'
selector=etree.HTML(response.text)
root='D:/天下3/pictuers'
for i in range(1,64):
url=selector.xpath('//div[@class="RichText ztext Post-RichText css-hnrfcf"]/figure[{}]/img/@data-original'.format(i))
for img_url in url:
root='D:/pic/'
path = root + img_url.split('/')[-1]
r = requests.get(img_url)
with open(path, 'wb') as f:
f.write(r.content)
f.close()
print("文件保存成功")

本文分享了使用Python爬取知乎动态网页时,作者意外地从HTML中抓取了一堆高质量图片的过程,展示了从请求头设置到解析HTML并下载图片的完整代码示例。

888

被折叠的 条评论
为什么被折叠?



