1.1 如何在Pycharm中使用Scrapy

本文介绍了如何在PyCharm中创建并运行Scrapy项目。从新建Scrapy项目`tutorial`,到创建爬虫`dmoz_spider.py`,解释了HTTP状态码如400和403的含义,并指出只有状态码200才代表请求成功。同时,文章讲解了如何定义Item,使用Selector选择器,以及保存爬取数据的方法。
摘要由CSDN通过智能技术生成
打开 Terminal , 将 5 Scrapy 拖到 Terminal 上,即可进入到 5 Scrapy 的目录

在这里插入图片描述

新建Scrapy 项目:tutorial
C:\Users\Jiangfeng\PycharmProjects\QSModel\5 Scrapy>
scrapy startproject tutorial

在这里插入图片描述

新建之后,pycharm上展开 5 Scrapy 项目,可以看到你的tutorial 项目
进入 tutorial 项目中,创建默认的爬虫程序
 C:\Users\Jiangfeng\PycharmProjects\QSModel\5 Scrapy>cd tutorial
 C:\Users\Jiangfeng\PycharmProjects\QSModel\5 Scrapy\tutorial>
 scrapy genspider example example.com

在这里插入图片描述

example.py:
# -*- coding: utf-8 -*-
import scrapy


class ExampleSpider(scrapy.Spider):
	# 
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        pass
也可以自定义爬虫程序

在 pychram 中 编辑 spiders 的 init.py,重名为 :

dmoz_spider.py:
import scrapy
'''
	DmozSpider 继承 scrapy.Spider:

	Spider是最简单的spider。
	每个其他的spider必须继承自该类(包括Scrapy自带的其他spider以及您自己编写的spider)。 
	Spider并没有提供什么特殊的功能。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值