1、首先对目标站点的规模和结构进行一定的了解
检查robots.txt文件
大多数网站都会定义robots.txt文件,这样可以让爬虫了解爬取该网站时存在哪些限制。
查看Sitemap文件(即网站地图)
网站地图提供了所有网页的链接,可以帮助爬虫定位网站最新的内容,而无需爬取每一个网页。
2、下载网页
3、抓取数据
爬取(crawling)
为了抓取网站,我们首先需要下载包含有感兴趣数据的网页,该过程一般被称为爬取。爬取一个网站有很多方法,而选用哪种方法更加合适,取决于目标网站的结构,常见的有3种爬取网站:
- 爬取网站地图
- 遍历每个网页的数据库ID
- 跟踪网页链接
抓取(scraping)
我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为抓取。常见的三种抓取数据的方法如下:
- 正则表达式
- Beautiful Soup
- lxml