一、案例
1. 对一个新的网站进行爬取之前,首先要确定即将要进行爬取的数据是否为动态加载!
#需求:爬取煎蛋网的图片数据 http://jandan.net/ooxx
import requests
from lxml import etree
import base64
from urllib import request
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
url = 'http://jandan.net/ooxx/page-62#comments'
page_text = requests.get(url=url,headers=headers).text
#解析图片的密文
tree = etree.HTML(page_text)
code_list = tree.xpath('//span[@class="img-hash"]/text()')
for code in code_list:
# 基本上是,常用的页面加密算法
img_url ='http:' + base64.b64decode(code).decode()
imgName = img_url.split('/')[-1]
request.urlretrieve(img_url,imgName)
print(imgName,'下载成功!!!')