【Python-29】 Linux下编写最简单的scrapy网络爬虫项目

最新推荐文章于 2022-09-21 15:10:55 发布

玄苦大师233

最新推荐文章于 2022-09-21 15:10:55 发布

阅读量8.7k

点赞数 6

分类专栏： 2. Python Python学习专栏

本文链接：https://blog.csdn.net/chenguolinblog/article/details/19699865

版权

本文介绍了如何在Linux环境下使用Scrapy框架创建一个简单的网络爬虫项目。内容包括安装Scrapy、创建项目、定义数据字段、创建网络蜘蛛、运行项目以及数据提取方法。示例中讲解了start_urls、parse()函数、XPath和CSS选择器的使用，并给出了存储爬取数据到JSON文件的命令。

摘要由CSDN通过智能技术生成

首先我们需要先安装scrapy框架，没有安装的同学可以看ubuntu下安装scrapy网络爬虫框架

创建一个项目 Creating a project

1 进入到想要创建项目的目录： scrapy startproject tutorial

这样就可以创建了一个新的scrapy项目tutorial

2 看一下项目的树形图

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

3 简单的介绍一下每个文件的用处

scrapy.cfg 是项目的配置文件

tutorial/ 是项目的入口

items.py 是项目的数据字段文件

pipelines.py 是项目的管道文件

settings.py 是项目的配置文件

spiders/ 是项目中放网络蜘蛛的目录

定义我们要的数据字段 Defining our Item

1 定义自己所需要的数据字段是从我们爬取下来的数据中提取的

2 定义字段在items.py中定义Item类来实现的

3 我们在items.py中定义出三个字段，titile和link以及desc

from scrapy.item import Item, Field

class DmozItem(Item):
    title = Field()
    link = Field()
    desc = Field()

创建第一个网络蜘蛛 Our first Spider

1 网络蜘蛛是指从用户定义好的一组域中爬取数据

2 要创建一个网络蜘蛛，我们必须在spiders/ 目录下创建一个文件

3 我们创建第一个网络蜘蛛，保存为dmoz_spider.py

from scrapy.spider import BaseSpider

class DmozSpide

最低0.47元/天解锁文章

玄苦大师233

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录