Python爬虫入门1之urllib库的使用

最新推荐文章于 2022-01-05 20:06:33 发布

qq_34344061

最新推荐文章于 2022-01-05 20:06:33 发布

阅读量842

点赞数

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_34344061/article/details/53573372

版权

1 篇文章 0 订阅

订阅专栏

我的Python爬虫入门之路

这是我第一次认真的写博客，真正的记录下我的学习过程。学习爬虫之前，应该有html的基础，python语言的基本用法，再入门爬虫，随着爬虫的深入，再学习Python的正则表达式等，本人小白一枚，我的爬虫之路开始啦

urrlib是Python中自带的一种简单易用的模块，使用它我们可以获取一些简单的网页信息。当然在这之前，我自学了python语言的基本用法。

结

这是我截出来的结果哦，用的编译器是sublime Text3，将文件保存后，按快捷键‘Ctrl+b’直接运行

这就将百度首页的源码获取了,是不是很简单呢，下面详细的解释一下

首先我们需要用的urllib库，用import导入，可以使用dir(urllib)帮助查看urllib库中有哪些方法，定义一个URL，实际就是网址。

首先我们调用的是urllib库里面的urlopen方法，，传入一个URL，这个网址是百度首页，协议是HTTP协议，当然你也可以把HTTP换做FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen一般接受三个参数，它的参数如下：

第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。

第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个html(自己随便定义的变量）对象，返回信息便保存在这里面。

2.html=urllib.urlopen(url),用来获取类文件对象

3。content=html.read(),用read()方法读取文件的信息

4 print content，打印读取的信息

当获取信息的对象为如网易“www.163.com”,他的字符编码为“gbk”,会出现错误，应该为：

content=html.read().decode("“gbk”).encode("utf-8"),

总结：

geturl()方法：获得用户传入的网址

gecode()方法：获得网页状态码

info（）方法：获得网页的同步信息，判断服务器类型等，如字符编码，网页文件长度，更新时间等

关于网页状态码：

404,：网页不存在，403禁止访问，200正常访问，301永久定向访问，302临时定向访问

关注