模块与框架的区别:
模块:能被借助实现所需功能的一些工具
1、确定url地址
2、发送网络请求 requests、urllib
3、解析数据 parsel 、lxml、 bs4
4、数据保存 csv 、 json
框架:一整套解决方案(只需要写业务逻辑)
数据管道保存数据
学习成本较高(语法/框架源码)
scrapy、pyspider..
scrapy框架内容:
1、scrapy.cfg:配置文件
2、setting.py :项目配置文件
3、pipelines.py: 数据管道保存数据
4、middlewares.py:解决反爬
5、items.py: 数据结构,类字典对象
新建项目:scrapy startproject 项目名
进入项目:cd 项目名
新建爬虫:scrapy genspider example example.com
运行 scrapy crawl example爬虫名