前言
由于我也不是什么专业人士,我也是在学习,这个就是我自己的一个学习笔记,什么爬虫可以做什么,为什么学爬虫我就不再赘述了,总结一点,爬虫用来爬取网页上的东西!
python库
在python中用到urllib和urllib2,urllib是python原生的一个库,urllib2是python创始人觉得urllib不好使自己又做的。python3将两个库合成了一个urllib库,需要什么东西基本就是从这个库里拿。
我用的python3,用urllib库
import urllib.XXX
基本用法
接下来,是最基本的爬虫。
我们要用到urllib库里的urlopen,顾名思义,’url‘ ’open‘,这个函数用来打开一个网页,也就是将一个网页下载下来,根据我的理解,和我们直接用浏览器打开是一样的,不过我们直接打开可以直观的看到,而这个函数会返回一个bytes类型的数据,需要decode()解码。
解码,前提是你得先把那串数据读出来,这就要说到我们的第二个函数,read(),用于将bytes类型的数据读出来,以便于decode()解码。
接下来看代码
import urllib.request
response=urllib.request.urllib("http://www.baidu.com")
text=response.read().decode()
print(text)
能爬到百度的主页
爬到的是html的网页,如果要提取什么信息,需要我们后期处理.