一、搭建python开发环境
二、安装scrapy框架
python基本环境搭建好后,打开cmd进入安装目录(我的安装目录为python)下的Script目录:
并建议将该文件夹路径加入系统环境变量,否则可能影响后面利用scrapy创建项目的步骤:
1、安装wheel
pip install wheel
2、安装lxml
pip install lxml
3、安装pyopenssl
pip install pyopenssl
4、安装Twisted
pip install Twisted
5、安装pywin32
pip install pywin32
6、安装scrapy
pip install scrapy
在cmd输入scrapy,可查看当前scrapy版本信息, 安装成功。
三、利用scrapy爬取第一段网站数据
在安装环境外新建一个工作目录(我的工作目录为PyWork),同样用cmd进入该目录,并且输入:
scrapy startproject tutal
其中tutal为项目名,可更改。
此时将在你的工作目录中生成文件名为tutal的项目文件
再次在cmd中输入:
scrapy genspider csdn_spider csdn.net
该操作会在上图spider文件夹中生成csdn_spider.py,其中csdn_spider为该爬虫项目名,csdn.net为要爬取数据的域名。
用IDE打开csdn_spider.py文件,将start_url变量中的链接修改为https://www.csdn.net/和https://download.csdn.net/:
# -*- coding: utf-8 -*-
import scrapy
class CsdnSpiderSpider(scrapy.Spider):
name = 'csdn_spider'
allowed_domains = ['csdn.net']
start_urls = ['https://www.csdn.net/','https://download.csdn.net/']
#爬取上面两个页面的逻辑
def parse(self, response):
filename = response.url.split('/')[-2] + ".html"
with open(filename, 'wb') as fp:
fp.write(response.body)
最后一步,运行项目。
在cmd中输入
scrapy crawl csdn_spider
查看运行结果
爬取的数据以html格式的文件存储在项目根目录下:
到此,第一个简单的爬取网页数据的爬虫代码运行完成。