scrapy框架的基本用法

本文详细介绍了如何安装Scrapy框架,创建项目及其组成部分,包括items.py(数据模型)、middlewares.py(请求处理)、pipelines.py(数据处理)、settings.py(配置)和spiders(爬虫)。还演示了如何在PyCharm终端执行scrapy爬虫。
摘要由CSDN通过智能技术生成

scrapy框架的基本用法

一、安装scrapy框架

  1. 按下win+r打开命令行输入cmd之后输入pip install scrapy,之后还需安装一个模块否者会影响scrapy的正常使用。
  2. 安装pywin32模块pip install pywin32 如果出现报错可在百度上寻找镜像网站。

二、创建scrapy项目

  1. 在pycharm的终端(terminal)中输入以下命令:
scrapy startproject myspider
  1. 之后依次输入:

     cd myspider
        scrapy genspider example example.com
    

注:cd是切盘的意思,myspider是自己项目的名字,example是网站名字,example.com是在网址后面跟上的域名。

三、创建出来的程序的作用

  1. **items.py:**定义了用于存储爬取数据的数据模型,即Item类。每个Item类对应爬取的一种数据结构。(定义了爬取数据的模样)

​ 2.middlewares.py:

  • 类似于请求和响应的加工厂,可以在发送请求前或处理响应后进行一些处理,比如修改请求头或代理。

​ 3.init.py:

  • 一个空文件,用于将包目录标识为Python包。

​ 4.pipelines.py:

  • 就像一个处理流水线,用于接收爬虫爬取到的数据,并执行保存或处理的操作,比如存储到数据库。

​ 5.scrapy.cfg:

  • 项目的配置文件,包含Scrapy项目的配置信息,如项目名称、模块路径等。

​ 6.spiders/目录:

  • 包含一个或多个爬虫的Python文件。每个爬虫文件定义了如何爬取特定网站的规则和逻辑。

    7.settings.py:

  • 包含项目的设置信息,如爬虫速度、并发数、User-Agent等配置。

四、执行scrapy框架
  1. 可在pycharm的终端(terminal)中运行

  2. 也可在创建一个py文件用这个程序作为启动程序,在其中输入以下代码即可

     from scrapy import cmdline
    cmdline.execute(['scrapy','crawl','lianjia','--nolog'])
    

注:如有错误之处请各位大佬不吝赐教

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值