利用scrapy爬取网页数据的初级实践

最新推荐文章于 2024-03-14 06:19:07 发布

AaronDDD

最新推荐文章于 2024-03-14 06:19:07 发布

阅读量582

点赞数 1

分类专栏：实践应用文章标签： python 爬虫 scrapy安装

本文链接：https://blog.csdn.net/sinat_35162715/article/details/90718664

版权

实践应用专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、搭建python开发环境

点击查看python环境搭建教程链接

二、安装scrapy框架

python基本环境搭建好后，打开cmd进入安装目录（我的安装目录为python）下的Script目录：

并建议将该文件夹路径加入系统环境变量，否则可能影响后面利用scrapy创建项目的步骤：

1、安装wheel

pip install wheel

2、安装lxml

pip install lxml

3、安装pyopenssl

pip install pyopenssl

4、安装Twisted

pip install Twisted

5、安装pywin32

pip install pywin32

6、安装scrapy

pip install scrapy

在cmd输入scrapy，可查看当前scrapy版本信息，安装成功。

三、利用scrapy爬取第一段网站数据

在安装环境外新建一个工作目录（我的工作目录为PyWork），同样用cmd进入该目录，并且输入：

scrapy startproject tutal

其中tutal为项目名，可更改。

此时将在你的工作目录中生成文件名为tutal的项目文件

再次在cmd中输入：

scrapy genspider csdn_spider csdn.net

该操作会在上图spider文件夹中生成csdn_spider.py，其中csdn_spider为该爬虫项目名，csdn.net为要爬取数据的域名。

用IDE打开csdn_spider.py文件，将start_url变量中的链接修改为https://www.csdn.net/和https://download.csdn.net/：

# -*- coding: utf-8 -*-
import scrapy


class CsdnSpiderSpider(scrapy.Spider):
    name = 'csdn_spider'
    allowed_domains = ['csdn.net']
    start_urls = ['https://www.csdn.net/','https://download.csdn.net/']

    #爬取上面两个页面的逻辑
    def parse(self, response):
        filename = response.url.split('/')[-2] + ".html"
        with open(filename, 'wb') as fp:
            fp.write(response.body)

最后一步，运行项目。

在cmd中输入