Python爬虫简单常用方法

Q:什么是Urllib库?
A:Urllib库是Python中一个功能强大,用于操作URL,并在做爬虫项目时经常要用到的库。在Python2.X中,分为Urllib库和Urllib2库,但是在Python3.X之后合并到UrlLib中。

Q:Urllib升级合并后,常见的变化有哪些呢?
A:(1):在Python2.X中使用import.urllib2—对应的,在Python3.X中会使用import.urllib.request,urlib.error
(2):在Python2.X中使用import.urlparse—对应的,在Python3.X中会使用import.urllib.parse
(3):在Python2.X中使用import.urlopen—对应的,在Python3.X中会使用import.urllib.request.urlopen
(4):在Python2.X中使用import.urlencode—对应的,在Python3.X中会使用import.urllib.parse.urlencode
(5):在Python2.X中使用import.quote—对应的,在Python3.X中会使用import.urllib.request.quote
(6):在Python2.X中使用cookielib.CookieJar—对应的,在Python3.X中会使用http.CookieJar
(6):在Python2.X中使用cookielib.CookieJar—对应的,在Python3.X中会使用http.CookieJar
(7):在Python2.X中使用urllib2.Request—对应的,在Python3.X中会使用urllib.request.Request

常用方法
1. urllib.request.urlopen(“网址”) 返回文件对象
例如:file = urllib.request.urlopen(“https://www.baidu.com“)
此时可以通过文件对象的三种读取方法:.read(),readlines(),readline()

  1. url.request.urlretrieve(“https://www.baidu.com“,filename=”本地文件地址”) 将爬取到的信息写入本地文件中
    注意:urlretrieve执行过程中会产生一些缓存,如要清除这些缓存,可以使用urlcleanup()进行清除。如:urllib.request.urlcleanup() 。

  2. 爬取的网页对象.info() 返回与当前环境有关的信息。
    如:file = urllib.request.urlopen(“https://www.baidu.com“)
    file.info()

  3. 爬取的网页对象.getcode() 返回当前爬取网页的状态码
  4. 爬取的网页对象.geturl() 返回当前正在爬取的url地址

url乱码解决方案
Q:为什么会产生url乱码?
A:一般来说,url标准中只会允许出现一部分ASCII字符,比如数字,字母和部分符号,而其他的一些字符和汉字等等是不符合url标准,所以在url中如果有不合法字符就会产生乱码,这个就需要url编码才能解决。在urllib库中提供了urllib.request.quote()进行编码。
例如需要对网址”https://www.baidu.com“编码,可以通过下列代码实现:
urllib.request.quote(“https://www.baidu.com“)

既然存在编码,如果需要解码,可以通过urllib.request.unquote(“编码后的网址”)来进行解码。

以上是Python3.X中urllib库的简单运用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值