什么都不想写了,现在python3的教程太少了。还是转头学2去的
-2015-10-25 11:54
直到现在这个发表,已经过去半年了,
python的爬虫也学习了很多,做了一点点小东西玩
python爬虫的第一步
获取页面。
目前我所掌握的获取页面的方式有4个,就是最基本的获取,不涉及都文件和cookies
- urllib.urlopen()
- urllib2.urlopen()
- urllib2.Request()
- requests.get()
第一个是
import urllib
urllib.urlopen(url).read()
#这里特别提一下
urllib.urlreleate(url,path)#可以直接保存网页内容到一个地方
第二个是
import urllib2
urllib2.urlopen(url).read()
第三个是
from urllib2 import Request
urllib2.Requests(url)
第四个是
import requests
requests.get(url).content
#如果不用comtent可以这样
requests.get(url).text
以上这四种方式是可以获取不需要cookie和header的网站的内容的,
获取下来之后用os库里面的文本方式保存,或者是上面介绍的urllib的方式保存到本地进行分析是一个很好的方法
下一节讲解怎么分析得到的网页用到三种方式