简单爬虫架构的四个模块
1.url管理器
2.网页下载器:
(1)直接用urllib.urlopen(url)打开网站
(2)某些网站禁止爬虫,出现403forbidden,可生成一个Request对象,伪装成浏览器
req=urllib2.Request(url)
req.add_header('User-agent','Mozilla/5.0')
buf=urllib2.urlopen(req).read()
(3)某些网站需要登陆验证
3.网页解析器
4.内容输出器