Python爬虫入门1之urllib库的使用

我的Python爬虫入门之路

这是我第一次认真的写博客,真正的记录下我的学习过程。学习爬虫之前,应该有html的基础,python语言的基本用法,再入门爬虫,随着爬虫的深入,再学习Python的正则表达式等,本人小白一枚,我的爬虫之路开始啦

urrlib是Python中自带的一种简单易用的模块,使用它我们可以获取一些简单的网页信息。当然在这之前,我自学了python语言的基本用法。


这是我截出来的结果哦,用的编译器是sublime Text3,将文件保存后,按快捷键‘Ctrl+b’直接运行


这就将百度首页的源码获取了,是不是很简单呢,下面详细的解释一下

           首先我们需要用的urllib库,用import导入,可以使用dir(urllib)帮助查看urllib库中有哪些方法,定义一个URL,实际就是网址。

首先我们调用的是urllib库里面的urlopen方法,,传入一个URL,这个网址是百度首页,协议是HTTP协议,当然你也可以把HTTP换做FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:

第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。

第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个html(自己随便定义的变量)对象,返回信息便保存在这里面。

2.html=urllib.urlopen(url),用来获取类文件对象

3。content=html.read(),用read()方法读取文件的信息

4  print content,打印读取的信息

当获取信息的对象为如网易“www.163.com”,他的字符编码为“gbk”,会出现错误,应该为:
content=html.read().decode("“gbk”).encode("utf-8"),
总结:
geturl()方法:获得用户传入的网址
gecode()方法:获得网页状态码
info()方法:获得网页的同步信息,判断服务器类型等,如字符编码,网页文件长度,更新时间等
关于网页状态码:
404,:网页不存在,403禁止访问,200正常访问,301永久定向访问,302临时定向访问



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值