[python爬虫]Scrapy架构的使用

最新推荐文章于 2024-05-28 19:20:57 发布

Black_God1

最新推荐文章于 2024-05-28 19:20:57 发布

阅读量333

点赞数

分类专栏：计算机 python 爬虫文章标签： scrapy 爬虫 python

本文链接：https://blog.csdn.net/Black_God1/article/details/82109356

版权

计算机同时被 3 个专栏收录

33 篇文章 0 订阅

订阅专栏

爬虫

26 篇文章 0 订阅

订阅专栏

python

17 篇文章 0 订阅

订阅专栏

创建一个Scrapy项目

我是在PyCharm的命令行执行，创建项目文件之前可以自定义文件地址

创建scrapy项目文件夹（目录）

scrapy startproject 文件夹名称

建立项目文件时需要在scrapy项目文件夹下建立，文件夹名称：就是创建项目文件夹的名称

cd 文件夹名称

建立项目文件

scrapy genspider 运行文件名 爬取的网页地址

这样就创建成功了

显示结果图：
这里写图片描述

Scrapy架构的使用

创建一个启动文件

在项目目录下创建一个主函数mian.py下的代码：
说明：启动文件里的wangyi是我自己建立的scrapy项目文件，就相当于从mian.py运行等价于命令行调用执行scrapy项目文件

from scrapy.cmdline import execute

execute('scrapy crawl wangyi'.split())

spiders》在项目文件.py里写爬取代码

# -*- coding: utf-8 -*-
import scrapy


class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    allowed_domains = ['news.163.com']
    start_urls = ['http://news.163.com/']

    def parse(self, response):
        pass

配置文件

serring.py需要改的代码：

#ROBOTSTXT_OBEY = True      #原本
#需要改成
ROBOTSTXT_OBEY = Fale

请求头需要去配置文件打开

DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
   'User-Agent':'',
}

保存函数Scrapy封装好的

如果需要保存，请去配置文件夹打开它

#ITEM_PIPELINES = {
#    'xiangm1.pipelines.Xiangm1Pipeline': 300,
#}

Black_God1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录