python之scrapy爬虫1

本文介绍了Python Scrapy爬虫的基本操作,包括安装Scrapy、创建项目、查看项目目录、创建爬虫文件以及运行爬虫。通过实例演示了如何使用命令行生成和运行爬虫,并展示了生成的HTML文件。
摘要由CSDN通过智能技术生成

前言

python爬虫基本指令要点

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

以下的两个图片的流程一致
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

实操内容:

安装scrapy(pip install scrapy)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
对于安装scrapy插件。需要使用命令多安装几次才可以成功!!
在这里插入图片描述
在这里插入图片描述

创建项目

实操内容:

scrapy startproject myspider1
ls
在这里插入图片描述

查看新建项目的根目录

实操内容:

tree myspider1/
在这里插入图片描述

创建后所在用户文件下的位置:

实操内容:

  1. C:\Users\Administrator\myspider1
    在这里插入图片描述

  2. C :\Users\Administrator\myspider1\myspider1
    在这里插入图片描述

创建后所在安康达软件内的所在位置:

实操内容:

  1. D:\anaconra3_software\Lib\site-packages\scrapy\templates\project

在这里插入图片描述
2. D:\anaconra3_software\Lib\site-packages\scrapy\templates\project\module
在这里插入图片描述

调制界面,显示文件的根目录

实操内容:

在这里插入图片描述
在这里插入图片描述

创建爬取文件

在这里插入图片描述

实操内容:

cd myspider
scrapy genspider itcast itcast.cn
在这里插入图片描述

所创建爬虫文件的目录

文件目录下

C:\Users\Administrator\myspider1\myspider1\spiders
在这里插入图片描述

软件目录下

在这里插入图片描述
genspider:生成爬虫 itcast:传智播客 itcast.cn:传智播客的网址
deploy:部署 pipeline:管道

修改刚刚使用命令生成内部的源码

在这里插入图片描述

import scrapy

#定义爬虫类
class ItcastSpider(scrapy.Spider):
    # 定义爬虫的名字
    name = 'itcast'
    # 域名进行链接
    allowed_domains = ['itcast.cn']
    # 爬虫起始的url,一般是自己修改
    start_urls = ['http://itcast.cn/']

    # 定义解析。从中获取网址的数据!!
    # 定义对于网址的相关操作
    def parse(self, response): # response所对应的start_urls
        with open('itcase.html','wb') as f:
            f.write(response.body)




运行项目

在这里插入图片描述

实操部分

scrapy crawl itcast #crawl :爬取
在这里插入图片描述

产生的文件为html结尾

ls #查看该目录下的所有文件信息

命令下的html文件

在这里插入图片描述

软件内的html

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值