万里爬虫，始于足下

最新推荐文章于 2023-10-12 11:34:09 发布

负吾键来

最新推荐文章于 2023-10-12 11:34:09 发布

阅读量391

点赞数

分类专栏： Python 文章标签：嵌入式爬虫 python

本文链接：https://blog.csdn.net/weixin_43132888/article/details/105848534

版权

最近看了小甲鱼的爬虫教程，其中有一个是不使用Scrapy框架去爬取一个图片网的妹纸图系列的练手项目，但是现在距教程已经年代久远，图片网的网页框架已经和教程里面的不太一样，为了练习一下爬虫技术，记录一下这个爬取过程。
话不多说，直接post代码：（比较怕麻烦，代码说明放在注释）

import os
import urllib
import time

def url_open(url): #打开指定的网址进行获取资源（不在这里进行解码）
    
    headers={
   
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
            }
    
    req = urllib.request.Request(url)
    
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36')
    
    response = urllib.request.urlopen(req)
    
    html = response.read()
    
    return html

def get_pages(url): #获取页面的编号（每个页面都对应一个图片）
    html = url_open(url).decode('utf-8')
    page_index1 = html.find('a href="/t/')+11
    page_index2 = html