【Python-29】 Linux下编写最简单的scrapy网络爬虫项目

本文介绍了如何在Linux环境下使用Scrapy框架创建一个简单的网络爬虫项目。内容包括安装Scrapy、创建项目、定义数据字段、创建网络蜘蛛、运行项目以及数据提取方法。示例中讲解了start_urls、parse()函数、XPath和CSS选择器的使用,并给出了存储爬取数据到JSON文件的命令。
摘要由CSDN通过智能技术生成

 

 首先我们需要先安装scrapy框架,没有安装的同学可以看ubuntu下安装scrapy网络爬虫框架

     

 创建一个项目 Creating a project

      1 进入到想要创建项目的目录: scrapy startproject tutorial

         这样就可以创建了一个新的scrapy项目tutorial

      2 看一下项目的树形图

 

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

 

 

       3 简单的介绍一下每个文件的用处

 

 

        scrapy.cfg   是项目的配置文件

        tutorial/        是项目的入口

        items.py      是项目的数据字段文件

        pipelines.py 是项目的管道文件

        settings.py   是项目的配置文件

        spiders/       是项目中放网络蜘蛛的目录

 

 定义我们要的数据字段 Defining our Item

     1 定义自己所需要的数据字段是从我们爬取下来的数据中提取的

     2 定义字段在items.py中定义Item类来实现的

     3 我们在items.py中定义出三个字段,titile和link以及desc

 

from scrapy.item import Item, Field

class DmozItem(Item):
    title = Field()
    link = Field()
    desc = Field()

 


创建第一个网络蜘蛛 Our first Spider

 

     1 网络蜘蛛是指从用户定义好的一组域中爬取数据

     2 要创建一个网络蜘蛛,我们必须在spiders/ 目录下创建一个文件

     3 我们创建第一个网络蜘蛛,保存为dmoz_spider.py

 

from scrapy.spider import BaseSpider

class DmozSpide
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值