Scrapy框架
-
Scrapy是Python实现的屏幕抓取和web爬取框架,用于抓取web站点并从页面中提取结构化的数据。
-
Scrapy:任何人都可以根据需求来修改。
Scrapy架构
Scrapy框架的安装(Anaconda)
-
比较具体的安装可以参照我下面链接里的博客,博主已经讲述的很清楚了。我这里只是说明自己的安装过程。
-
由于我使用的是Anaconda+pycharm,所以先尝试了用pip安装:pip install Scrapy;但是错误百出所以就在Anaconda中安装:conda install scrapy发现这样很轻易就安装了。
Scrapy入门
-
创建一个 Scrapy 项目。
-
创建一个 Spider 来抓取站点和处理数据。
-
通过命令行将抓取的内容导出。
-
将抓取的内容保存到 MongoDB 数据库。
精细过程(pycharm中)
- 创建项目:新建一个项目(名为S),在Terminal中输入scrapy startproject S
-
创建Spider:在Terminal中输入scrapy genspider [options]
-
创建Item(保存爬取数据的容器):
- 解析Response:(parse() 方法的参数 response 是 start_urls 里面的链接爬取后的结果。)
改写parse()方法,对response变量包含的内容解析。
-
使用Item:
-
后续Request:
-
运行:命令scrapy crawl Spi结果
-
保存到文件:
Scrapy 提供的 Feed Exports 可以轻松将抓取结果输出。支持输出格式:JSON、csv、xml、pickle、marshal 等,还支持 ftp、s3 等远程输出。
scrapy crawl Spi -o Spi.json
scrapy crawl quotes -o quotes.csv
scrapy crawl quotes -o quotes.xml
scrapy crawl quotes -o quotes.pickle
scrapy crawl quotes -o quotes.marshal
- 使用Item Pipeline:实现更复杂的输出。(将结果保存到数据库中、或筛选有用的Item)
常用其:
1.清洗 HTML 数据
2.验证爬取数据,检查爬取字段
3.查重并丢弃重复内容
4.将爬取结果储存到数据库
参考网站
-
百度百科
注明
- 此文章参考网站标出,但此文章版权归作者S所有,没有作者同意,任何人不得将此文章用做其他商业用途!!!
5/2/2020 10:00:27 AM