爬虫笔记(一)

  • 使用urllib2中有一些问题首先是语言版本在py2.x的版蹦中urllib2是自带的,但是在py3.x的版本中
  • python3把urllid,urllid2都打包成了urllid的包所以调用的时候直接调用urllid就可以了。

使用urllib下载网站的时候:

python2.x语法

import urllib2
def download(url):
    print urllib2.urlopen(url).read()//打开url进行读取

python3.x语法

import urllib
def dowload(url):
    print urllib.urlopen(url).read()//打开url进行读取输出

使用urllib包创建一个可以自定义切换用户并且发现错误可以自动重试的dolnload()函数

import urllib2
def download(url,user_agent='wswp',num_retries=2):
    print('Downloading:',url)
    # headers设置HTTP首部字段User-agent
    headers = {'User-agent':user_agent}
    # 使用urllib2把url和headers加载进去
    request = urllib2.Request(url,headers=headers)
    try:
    # html读取网页检查是否报错
        html=urllib2.urlopen(request).read()
    except urllib2.URLError as e:
    # 抛出错误的url清空html尝试重新进行链接
        print('Download Error:',url)
        html=None
        if num_retries>0:
            if hasattr(e,'code') and 500<= e.code <600:
                return download(url,user_agent,num_retries-1)
    return html
    # 2.x版本编写

在基础爬虫中最重要的就是download()这个函数这个函数贯穿爬虫的始与终,作用主要是用来下载整个网站,然后再用函数对下载下来整个网站做分析,获取到想要的内容,这些是我们写网络爬虫的基本思想

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

饭一口口吃

来杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值