使用scrapy来抓取 ChinaPub 这个网站上的图片_并且将其下载到本地

最新推荐文章于 2020-08-15 18:32:35 发布

夏侯_瑾轩

最新推荐文章于 2020-08-15 18:32:35 发布

阅读量303

点赞数

分类专栏： python 文章标签： python scrapy 爬取图片下载

本文链接：https://blog.csdn.net/baidu_24545901/article/details/78999844

版权

python 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

1.首先我们使用 scrapy startproject chinapub 这个命令来创建出一个scrapy项目,创建完毕之后scrapy的目录结构如下图所示:

2.在spider目录下新建一个 chinapub.py的文件，并且编写上下面的代码.

# -*- coding: utf-8 -*-
import scrapy

from scrapy.spider import Spider
from scrapy.selector import Selector
from chinapub.items import ChinapubItem
import urllib
from urllib import request

import sys
import os

class ReadbookSpider(scrapy.Spider):
    name = "readbook"
    allowed_domains = ["http://www.china-pub.com/"]
    #start_urls = ['https://www.dushu.com/book/']
    start_urls = ['http://product.china-pub.com/cache/rank3/onlinecenter.html']



    def parse(self, response):
        selector = Selector(response)    #创建选择器

        imgs_path = sys.path[0]+"/imgs/"
        #xpath的方式来提取出页面想要内容的信息
        imgs = selector.xpath("//div[@class='tjyd']/ul/li/a/img/@file").extract()

        #for imgpath in imgs:

        for index in range(len( imgs )):

                print(imgs[index])

                response = request.urlopen(imgs[index])
                binary_data = response.read()
                temp_file = open(  imgs_path+str(index)+'.jpg','wb' )
                temp_file.write(binary_data)
                temp_file.close()

                #urllib.urlretrieve(imgpath,"F:/imgs/1.jpg")

        pass

3.在项目的根目录下新建一个 imgs 这样名字的一个文件夹如下图

4.在项目的根目录下创建一个main.py这样的文件,编写上下面的代码 
# -*- coding: utf-8 -*-
__author__ = 'bobby'

from scrapy.cmdline import execute

import sys
import os


sys.path.append(os.path.dirname(os.path.abspath(__file__)))   #获取到当前整个工程  ArticleSpider这个项目的目录路径  os.path.dirname  这个函数指的是当前这个文件路径，os.path.dirname指的是某个目录的父级别路径

execute(["scrapy","crawl","readbook"])

# #sys.path.append("F:\scrapy_project\ArticleSpider")

5.运行主程序文件
结果就把http://product.china-pub.com/cache/rank3/onlinecenter.html   url下的所有文件全部都爬取下来了
效果如下图所示:

夏侯_瑾轩

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用scrapy来抓取 ChinaPub 这个网站上的图片_并且将其下载到本地

1.首先我们使用 scrapy startproject Chinapubweb 这个命令来创建出一个scrapy项目,创建完毕之后scrapy的目录结构如下图所示:2.在spider目录下新建一个 chinapub.py的文件，并且编写上下面的代码.# -*- coding: utf-8 -*-import scrapyfrom scrapy.spider i
复制链接

扫一扫

专栏目录