05Python爬虫---小结

(1) Urllib是 Python提供的一个用于操作URL的模块,在 Python2X中,有 Urllib也有Urllib2库,在 Python3x中 urllib2合并到了 urllib中,我们爬取网页的时候,经常需要用到这个库。
(2)一般来说,URL标准中只会允许一部分 ASCII字符,比如数字、字母、部分符号等,而其他的一些字符,比如汉字等,是不符合URL标准的。所以如果我们在URL中使用不符合标准的字符就会出现问题,此时需要进行URL编码方可解决。比如在URL中输入中文或者“:”或者“&”等不符合标准的字符时,需要编码。
(3)当我们无法爬取一些网页时可能会出现403错误,因为这些网页为了防止别人恶意采集其信息进行了一些反爬虫的设置。
(4)由于 urlopen0不支持一些HTTP的高级功能,所以,我们如果要修改报头,可以使用 urllib, request. build opener(进行。
(5)我们还可以使用 urllib. request Request下的 add header实现浏览器模拟技术。
(6)程序在执行的过程中,难免会发生异常,发生异常不要紧,关键是要能合理地处理异常,在 Python爬虫中,经常要处理一些与URL相关的异常。此时,我们可以使用URL异常处理神器— -Urlerror类进行相应的处理。
(7)我们经常使用try… except语句进行异常处理,在try中执行主要代码,在 except中捕获异常信息,并进行相应的异常处理。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值