万里爬虫,始于足下

最近看了小甲鱼的爬虫教程,其中有一个是不使用Scrapy框架去爬取一个图片网的妹纸图系列的练手项目,但是现在距教程已经年代久远,图片网的网页框架已经和教程里面的不太一样,为了练习一下爬虫技术,记录一下这个爬取过程。
话不多说,直接post代码:(比较怕麻烦,代码说明放在注释)

import os
import urllib
import time

def url_open(url): #打开指定的网址进行获取资源(不在这里进行解码)
    
    headers={
   
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
            }
    
    req = urllib.request.Request(url)
    
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36')
    
    response = urllib.request.urlopen(req)
    
    html = response.read()
    
    return html

def get_pages(url): #获取页面的编号(每个页面都对应一个图片)
    html = url_open(url).decode('utf-8')
    page_index1 = html.find('a href="/t/')+11
    page_index2 = html
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值