谨以此记录个人学习过程,以期为后来者提供一丝半毫之参考。
爬虫构造过程整体框架:
URL管理器:管理待抓取URL集合和以抓取URL集合。防止重复抓取/防止重复抓取
URL管理器实现方式:内存/关系数据库/缓存数据库
网页下载器:将URL对应网页下载到本地的工具。 || python中网页下载器分类:
1.简单访问。
2.稍微复杂访问。data:所需提交的数据。http header:头信息
3.复杂访问。
需要登录才能访问:HTTPCookieProcessor 需要代理才能访问:ProxyHandler
https加密访问:HTTPSHandler 相互自动跳转关系:HTTPRedirectHandler
以上三种方法运行结果对比:
鸣谢:慕课网:疯狂的蚂蚁crazyant