由于个人安装的Python版本是2.7的,因此此后的相关代码也是该版本。
- 爬取网页所有信息
利用urllib2包来抓取网页的信息,先介绍下urllib2包的urlopen函数。
urlopen:将网页所有信息存到一个object里,我们可通过读取这个object来获得网页信息。例如,我们使用它来获取百度首页信息如下。
import urllib2
f = urllib2.urlopen('http://www.baidu.com')
f.read(100)
通过上面的代码我们读取了百度首页的前100个字符:
'<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type"<