第一个scrapy 爬虫

最新推荐文章于 2024-08-05 10:37:56 发布

lucky404

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量334

点赞数

分类专栏：爬虫文章标签： scrapy demo

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lucky404/article/details/79423750

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

安装完scrapy 之后，通过scrapy startproject ‘ProjectName’ 来新建项目, 然后
scrapy 就会自动帮我们创建项目

demo

现在是一个初始化的项目，首先我需要去抓取某个网站的信息，我需要抓取的信息定义到items.py里面
我们抓取的信息是内容标题, 图片链接, 更新时间, 总页数, 照片组数

因此我们的items.py 可以定义为如下

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class MyscrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    url = scrapy.Field()
    update_time = scrapy.Field()
    total_page = scrapy.Field()
    total_images = scrapy.Field()

定义完毕items 之后我们就开始要写爬虫逻辑的代码了，爬虫的代码需要写在项目的spiders 包里面
demo1

代码如下

# 这里面写爬虫的逻辑
import scrapy


class ImageSpider(scrapy.Spider):
    """
    scrapy 爬虫必须继承自 scrapy.Spider 然后实现它的parse方法
    """
    # name 也是必须有的这个就是项目名称, name是唯一的 不可重复
    name = 'image_helper'
    # 定义抓取的主机
    allowed_domains = ["baidu.com"]
    # 定义抓取的url 列表
    start_urls = [
        "https://www.baidu.com"
    ]

    def parse(self, response):
        """
        该方法是重写scrapy 的方法
        :param response:
        :return:
        """
        pass

然后我们就可以在命令行里面使用scrapy crwal # 这个name 就是我们class 下面的name属性，比如我的那么是 image_helper

scrapy crwal image_helper

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

lucky404 CSDN认证博客专家 CSDN认证企业博客

码龄7年

99: 原创

5万+: 周排名

93万+: 总排名

27万+: 访问

: 等级

3572: 积分

107: 粉丝

157: 获赞

111: 评论

867: 收藏

私信

关注

热门文章

分类专栏

mysql 11篇
python 29篇
linux 3篇
mongoDB 2篇
爬虫 6篇
oracle 4篇
java 5篇
go 26篇
机器学习 7篇
测试 4篇

最新评论

java 练手小项目
天蓝999: 可以的，我看的另一个Java项目视频，从零开发，十天学会了SpringBoot项目实战：https://knife.blog.csdn.net/article/details/132622876
解决 yolo: Demo needs OpenCV for webcam images
庸人c: 加入一行路径也就是 opencv 编译安装之后生成的lib /path/to/opencv/lib 你好，一直找不到自己的路径，请问在哪里可以找到呢？在opencv解压路径下的build路径进行的编译安装
解决rabbitmq add_user 报错
十九子八六: 我也遇到这种情况，安装过程中我的rabbitmq也是莫名的停了，我使用命令：/sbin/service rabbitmq-server start 把rabbitmq启动后，就可以添加用户了，然后就能正常安装rabbitmq了
pytorch resnet 自定义数据集分类
qq_61839847: github上面原本是没有数据集的吗
go按行读写文件
qq_40955637: O_RDWR是在当前文件指针后面插入写，要想追加先seek到文件末尾，要覆盖就 Truncate(0)

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。