本文参考自python 爬虫基本组成
查看原文: 原文地址
基本组成
爬虫通常分为数据采集(网页下载)、数据处理(网页解析)和数据存储(有用的信息持久化)三个部分。
工作流程:
设定抓取目标(种子页面/起始页面)并获取网页。
当服务器无法访问时,按照指定的重试次数尝试重新下载页面。
在需要的时候设置用户代理或隐藏真实IP,否则可能无法访问页面。
对获取的页面进行必要的解码操作然后抓取出需要的信息。
在获取的页面中通过某种方式(如正则表达式)抽取出页面中的链接信息。
对链接进行进一步的处理(获取页面并重复上面的动作)。
将有用的信息进行持久化以备后续的处理。
解析工具
urllib
urllib.request
中的 Request urlopen
页面内容抓取工具
正则、lxml、bs4(BeautifulSoup)
lxml
etree.HTML(): 解析HTML对象
etree = etree.HTML(html) etree.xpath()
xpath 语法
表达式 | 作用 |
---|---|
/ | 根节点选取 |
// | 在当前选择的文档中选取 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
beautifulSoup
安装包
pip install beautifulsoup4