Scrapy下载以及简单爬虫项目的创建

Scrapy下载以及爬虫项目的创建

一.概述【图片传不了 心态么得了】

1.使用python语言开发的爬虫组件,可以方便的从网站爬取需要的网页数据。

2.可以对网页元素进行解析并获取指定的数据,这些数据可以与实体当中的属性对应。【方便存储到数据库中】

3.Scrapy框架的组件由五部分组成:

(1).爬虫引擎(Scrapy Engine):用于控制整个爬取的流程

(2).调度器(Scheduler):将请求爬取的网址排列为一个队列

(3).下载器(Downloader):从请求的网址中下载网页内容

(4).管道(Item Pipeline):对爬取的数据进行处理(持久化-保存到数据库)

(5).爬虫(Spider):爬取网页中需要的数据给item实体对象进行赋值

在这里插入图片描述

二.下载安装【这可以算是欧皇式安装了,有些人可能安装比较曲折一些,建议直接anconda整个安装完之后coda界面pip就好了,自己百度,教程很多,安装的方法好多,这个简单的是我们老师欧皇手气一遍过的,我就不一样了,装了好久,终于好了,有按这个方法装装不好的可以留言问我。】

1.在字符界面使用以下命令安装:【python版本默认装好了】

pip install scrapy

使用国内镜像安装:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy

2.环境变量的配置{控制面板->系统和安全->系统->高级系统设置->环境变量->系统变量->path下添加自己python的安装路径和scripty路径}
3.pycharm中安装scrapy【file->setting->project interpreter->±>搜索框scrapy->下面的install package安装就欧克了】

安装成功!

三.使用scrapy创建爬虫项目【学过linux可能比较容易些,建议自己多练几遍】

1、创建爬虫项目

scrapy startproject 爬虫项目名称

示例如下:创建百度爬虫

Scrapy startproject prjbaiduspider

2、创建爬虫

cd 爬虫工程目录

输入

scrapy genspider 爬虫名称 爬取的域名

注意:爬虫名称不能和工程名称一致,并且,爬虫名称必须是唯一的

示例如下:

修改爬虫文件

import scrapy class BaiduspiderSpider(scrapy.Spider): name = ‘baiduspider’#爬虫名称 allowed_domains = [‘baidu.com’] start_urls = [‘https://www.baidu.com/’] def parse(self, response): print(type(response)) title=response.xpath("//title/text()").get() print(title) pass

3、 运行爬虫

Scrapy crawl 爬虫名称

注意:此命令必须再xxx.cfg同级目录下执行

4、 再settings.py文件中将爬取的规则设置为False【好多设置成不许爬,改了这个就不用这么难受了】

\# Obey robots.txt rules

ROBOTSTXT_OBEY = False

settings.py文件中将爬取的规则设置为False【好多设置成不许爬,改了这个就不用这么难受了】

\# Obey robots.txt rules

ROBOTSTXT_OBEY = False

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值