今天开始学习python爬虫的scrapy库,它是一个爬虫框架,用户通过配置可以对规模较大的网站进行爬取。
它通过命令行的形式来进行调用。
5+2结构:
常见指令:
建立一个目录:
init和items不需用户编写。
然后可以生成一个名为demo的爬虫文件。
可以看到spider目录下生成了一个demo.py文件。
name是爬虫的名字,allowed_domains是要爬取的域名,下面start开头的是爬取的初始页面,可以是一个或多个。
下面的parse方法是留给用户编写的解析界面的方法,用于处理响应,解析内容形成字典,然后提取页面中新的URL。
response相当于从网页中返回的内容所对应的对象。
提取网页信息保存为本地的HTML。从网页返回对象的名字保存为HTML文件的名字。