最近看了小甲鱼的爬虫教程,其中有一个是不使用Scrapy框架去爬取一个图片网的妹纸图系列的练手项目,但是现在距教程已经年代久远,图片网的网页框架已经和教程里面的不太一样,为了练习一下爬虫技术,记录一下这个爬取过程。
话不多说,直接post代码:(比较怕麻烦,代码说明放在注释)
import os
import urllib
import time
def url_open(url): #打开指定的网址进行获取资源(不在这里进行解码)
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read()
return html
def get_pages(url): #获取页面的编号(每个页面都对应一个图片)
html = url_open(url).decode('utf-8')
page_index1 = html.find('a href="/t/')+11
page_index2 = html