PyCharm下进行Scrapy项目的调试

1、首先创建一个Scrapy项目:

在命令行输入:

scrapy startproject project_name

project_name为项目名称,比如我的项目名称为py_scrapyjobbole,生成的目录为:


2、创建新的Spider

在命令行输入:

scrapy genspider jobbole(spider名称) blog.jobbole.com(爬取的起始url)
# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/111322/']

    def parse(self, response):
        re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1')
        pass

3、配置setting.py文件(这步很重要)

BOT_NAME = 'py_scrapyjobbole'

SPIDER_MODULES = ['py_scrapyjobbole.spiders']
NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

ROBOTSTXT_OBEY = False 一定要设置成 False,断点调试才能正常进行。

4、在工程目录下建立main.py文件,稍后将会在这里面进行调试!

from scrapy.cmdline import execute
import sys
import os

# 打断点调试py文件
# sys.path.append('D:PyCharmpy_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'jobbole'])

5、进行断点调试


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值