- 简单爬虫 : 1 不需要 cookie 访问 2 没有 ajax 的静态网页 3 没有加密
爬虫架构
- 爬虫调度端
- uml 管理器 管理已抓取的 url 集合 和 待抓取的 url 集合
- 网页下载器
- 网页解析器
uml 管理器
实现方式:
- 内存实现 set() 集合
- 关系数据库 MySql urls(url,is_crawled)
- 缓存数据库 redis set
网页下载器
会讲 uml 网页下载 html 以 字符串 或者 文件形式存储
- urllib2 Python 官方基础模块
- request 第三方的库 更强大
urllib2 下载网页的三种方法
网页解析器
- 提取有价值的数据
- 提取新的待爬取的 url
python 有哪几种网页解析器
- 正则表达式
- html.parser Python自带
- BesutifulSoup 第三方库
- lxm
BesutifulSoup
to be continued …
本文介绍了一种简单的爬虫架构,包括爬虫调度端、URL管理器、网页下载器和解析器等组件。探讨了不同URL管理实现方式,如使用内存、关系数据库(MySQL)及缓存数据库(Redis)等。同时,文中还提到了网页下载和解析的技术细节,如使用Python的urllib2和BeautifulSoup等工具。
1259

被折叠的 条评论
为什么被折叠?



