Scrapy入门-下载文件

最新推荐文章于 2023-06-26 14:08:16 发布

mapyking

最新推荐文章于 2023-06-26 14:08:16 发布

阅读量140

点赞数

分类专栏： Python爬虫文章标签： python

本文链接：https://blog.csdn.net/alittlehorse/article/details/105159868

版权

Python爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

目标：爬取并下载https://matplotlib.org/examples/index.html上所有的python文件

下载文件需启动FilesPipeline

ITEM_PIPELINES = {'scrapy.pipelines.files.FilesPipeline': 1,}

定义下载位置

FILES_STORE = './DownLoadPY'

LinkExtractor 获取所有链接

开始项目

观察分析页面

列表页面各程序位置
源代码文件页面源代码文件位置

创建项目与爬虫
建立Item对象
file_urls作为下载识别
首先获取列表页面所有链接，并callback返回建立循环
由于创建爬虫时url输入为 matplotlib.org
但需爬取url 为 https://matplotlib.org/examples/index.html
所以修改start_urls

start_urls = ['http://matplotlib.org/examples/index.html']

列表页：
在这里插入图片描述

获取源代码文件页面
输出

发现文件存储路径为

[FILES_STORE]/full/[SHA1_HASH_VALUE].py

这种命名方式为防止重名而覆盖文件，可以通过覆写file_path命名规则进行更改

# 覆写其子类
from scrapy.pipelines.files import FilesPipeline
def file_path(self, request, response=None, info=None):
    request_parse_path = urlparse(request.url)
    path = request_parse_path.path
	return basename(dirname(path))
	... ...

mapyking

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Scrapy入门-下载文件

目标：爬取并下载https://matplotlib.org/examples/index.html上所有的python文件下载文件需启动FilesPipelineITEM_PIPELINES = {'scrapy.pipelines.files.FilesPipeline': 1,}定义下载位置FILES_STORE = './DownLoadPY'LinkExtract...
复制链接

扫一扫

专栏目录