课程内容
1.爬虫简介
2.简单爬虫架构
3.URL管理器
4.网页下载器(urllib2)
5.网页解析器(BeautifulSoup)
6.完整实例
爬取百度百科Python词条相关的1000个页面数据
爬虫简介:
爬虫:一段自动抓取互联网信息的程序
价值:有价值的互联网数据。
简单爬虫架构:
时序图:
URL管理器:管理待抓取URL集合和已抓取URL集合
-防止重复抓取、防止循环抓取
URL实现方式(3种)
第一种:将带爬取的URL集合和已爬取的URL集合放在内存中
python内存:
待爬取URL集合:set()
已爬取URL集合:set()
第二种:将URL存储在关系型数据库中
MySQL:urls(url,is_crawled)
第三种:将URL放在缓存数据库 redis
待爬取URL集合:set
已爬取URL集合:set