我的Python爬虫入门之路
urrlib是Python中自带的一种简单易用的模块,使用它我们可以获取一些简单的网页信息。当然在这之前,我自学了python语言的基本用法。
结
这是我截出来的结果哦,用的编译器是sublime Text3,将文件保存后,按快捷键‘Ctrl+b’直接运行
这就将百度首页的源码获取了,是不是很简单呢,下面详细的解释一下
首先我们需要用的urllib库,用import导入,可以使用dir(urllib)帮助查看urllib库中有哪些方法,定义一个URL,实际就是网址。
首先我们调用的是urllib库里面的urlopen方法,,传入一个URL,这个网址是百度首页,协议是HTTP协议,当然你也可以把HTTP换做FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:
第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。
第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个html(自己随便定义的变量)对象,返回信息便保存在这里面。
2.html=urllib.urlopen(url),用来获取类文件对象
3。content=html.read(),用read()方法读取文件的信息
4 print content,打印读取的信息