Python爬虫(二):制作一个简单的scrapy爬虫项目

本文介绍了如何使用Scrapy框架创建一个简单的爬虫项目,包括创建项目、编写爬虫代码以及执行爬虫抓取http://lab.scrapyd.cn/page/1/页面的所有信息。最后,展示了爬取结果的存储,并提供了完整代码的下载链接,为后续的数据提取打下基础。
摘要由CSDN通过智能技术生成

在使用Scrapy框架过程中,每一条命令前均要写scrapy.

创建项目

scrapy startproject myproject
# startproject:表示创建项目
# myproject:表示我创建的项目名

创建的scrapy项目有如下文件结构:

———— myproject
     |
     |———— myproject/   #项目的Python模块,将会从这里引用代码
     |     |
     |     |———— __init__.py
     |     |———— items.py       #项目的目标文件
     |     |———— pipelines.py   #项目的管道文件,其中可创建多个管道类
     |     |———— settings.py    #项目的设置文件
     |     |———— spiders/       #存储爬虫文件的目录
     |           |   
     |           |———— __init__.py 
     |           |———— myspider.py   #爬虫,建项目时不建爬虫文件文件,需自己创建
     |           |———— ...
     |
     |———— scrapy.cfg   #项目配置文件,无需修改

创建爬虫

scrapy genspider myspider "lab.scrapyd.cn"
# genspider:表示创建一个爬虫,默认为scrapy.Spider类
# myspider:表示爬虫名,与爬虫代码里的name参数一致
# "lab.scrapyd.cn":表示允许爬虫爬取的域范围

打开创建好的爬虫 myspider.py,默认内容如下:

# -*- coding: utf-8 -*-
import scrapy

class MyspiderSpider(scrapy.Spider):#定义爬虫类
    name = 'myspider'#爬虫名
    allowed_domains = ['lab.scrapyd.cn']#允许爬虫爬取的域名范围
    start_urls = (
        'http://lab.scrapyd.cn/',
        )#爬虫要爬取的网页地址列表
    
    def parse(self, response):#定义parse函数
        pass

下面对其进行修改,使其爬取并打印http://lab.scrapyd.cn/page/1/页面的所有信息,如下:

# -*- coding: utf-8 -*-
import scrapy

class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['lab.scrapyd.cn']
    start_urls = ['http://lab.scrapyd.cn/page/1/']
    
    def parse(self, response):
        page = response.url.split('/')[-2]#取文件名
        filename = 'wj-%s.html'%page
        with open(filename,'wb') as f :
            f.write(response.body)#写文件
        #open('filename','wb').write(response.body)#写文件
        self.log('保存文件: %s' % filename)# 打印日志

 执行爬虫

scrapy crawl myspider
# crawl:表示启动一个scrapy爬虫
# myspider:表示爬虫名

可以看到项目列表中会出现一个存放着http://lab.scrapyd.cn/page/1/ 页面内容的html文件,如下

<!DOCTYPE HTML>
<html class="no-js">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="renderer" content="w
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值