Scrapy爬虫框架总结

最新推荐文章于 2023-02-03 02:31:09 发布

嘭啦啦啦啦塵

最新推荐文章于 2023-02-03 02:31:09 发布

阅读量168

点赞数

分类专栏： Python爬虫学习笔记

本文链接：https://blog.csdn.net/qq_40405370/article/details/83244064

版权

Python爬虫学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.建立工程，生成spider模板。

通过命令建立模板：

E:\python\>scrapy startproject BaiduStocks #命令行中进入相应工程目录下，新建以BaiduStocks为名的工程

E:\python\>cd BaiduStocks #进入工程目录

E:\python\>scrapy genspider stocks baidu.com #生成名为stocks的爬虫，在spider目录下将看到stocks.py的文件

2.编写一个spider爬虫程序：处理链接爬取和网页解析的功能

编写与配置stocks.py文件，使其能够处理返回页面与新增爬取请求

下面是stocks建成后未修改的模板格式：

# -*- coding: utf-8 -*-
import scrapy

class StocksSpider(scrapy.Spider):
    name = "stocks"
    allowed_domains = ["baidu.com"]
    start_urls = ['http://baidu.com']

    def parse(self, response):
        pass

对其进行编写。

3.编写Item pipelines：处理解析后的股票数据，并将这些数据存储到文件中

编写pipelines，配置pipelines.py文件。定义对爬取项Scraped Item的处理类。

pipelines.py未修改前：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

class BaiduxueshuPipeline(object):
     def process_item(self, item, spider):
         return item

4.修改配置文件settings.py

修改一个参数ITEM_PIPELINES，加入自己定义的内容

5.进入命令行执行程序：scrapy crawl stocks #stocks是自己定义的爬虫名

嘭啦啦啦啦塵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy爬虫框架总结

1.建立工程，生成spider模板。通过命令建立模板： E:\python\&gt;scrapy startproject BaiduStocks #命令行中进入相应工程目录下，新建以BaiduStocks为名的工程 E:\python\&gt;cd BaiduStocks #进入工程目录 E:...
复制链接

扫一扫

专栏目录