python:Scrapy框架爬虫入门学习

Scrapy框架

  • Scrapy是Python实现的屏幕抓取和web爬取框架,用于抓取web站点并从页面中提取结构化的数据。

  • Scrapy:任何人都可以根据需求来修改。

Scrapy架构

在这里插入图片描述

Scrapy框架的安装(Anaconda)

  • 比较具体的安装可以参照我下面链接里的博客,博主已经讲述的很清楚了。我这里只是说明自己的安装过程。

  • 由于我使用的是Anaconda+pycharm,所以先尝试了用pip安装:pip install Scrapy;但是错误百出所以就在Anaconda中安装:conda install scrapy发现这样很轻易就安装了。

Scrapy入门

  • 创建一个 Scrapy 项目。

  • 创建一个 Spider 来抓取站点和处理数据。

  • 通过命令行将抓取的内容导出。

  • 将抓取的内容保存到 MongoDB 数据库。

精细过程(pycharm中)

  • 创建项目:新建一个项目(名为S),在Terminal中输入scrapy startproject S

在这里插入图片描述

  • 创建Spider:在Terminal中输入scrapy genspider [options]
    在这里插入图片描述

  • 创建Item(保存爬取数据的容器):

在这里插入图片描述

  • 解析Response:(parse() 方法的参数 response 是 start_urls 里面的链接爬取后的结果。)

改写parse()方法,对response变量包含的内容解析。

  • 使用Item:

  • 后续Request:

  • 运行:命令scrapy crawl Spi结果

  • 保存到文件:

Scrapy 提供的 Feed Exports 可以轻松将抓取结果输出。支持输出格式:JSON、csv、xml、pickle、marshal 等,还支持 ftp、s3 等远程输出。


    scrapy crawl Spi -o Spi.json

    scrapy crawl quotes -o quotes.csv

    scrapy crawl quotes -o quotes.xml

    scrapy crawl quotes -o quotes.pickle

    scrapy crawl quotes -o quotes.marshal



  • 使用Item Pipeline:实现更复杂的输出。(将结果保存到数据库中、或筛选有用的Item)

常用其:

1.清洗 HTML 数据

2.验证爬取数据,检查爬取字段

3.查重并丢弃重复内容

4.将爬取结果储存到数据库

参考网站

注明

  • 此文章参考网站标出,但此文章版权归作者S所有,没有作者同意,任何人不得将此文章用做其他商业用途!!!

5/2/2020 10:00:27 AM

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值