Scrapy下载以及爬虫项目的创建
一.概述【图片传不了 心态么得了】
1.使用python语言开发的爬虫组件,可以方便的从网站爬取需要的网页数据。
2.可以对网页元素进行解析并获取指定的数据,这些数据可以与实体当中的属性对应。【方便存储到数据库中】
3.Scrapy框架的组件由五部分组成:
(1).爬虫引擎(Scrapy Engine):用于控制整个爬取的流程
(2).调度器(Scheduler):将请求爬取的网址排列为一个队列
(3).下载器(Downloader):从请求的网址中下载网页内容
(4).管道(Item Pipeline):对爬取的数据进行处理(持久化-保存到数据库)
(5).爬虫(Spider):爬取网页中需要的数据给item实体对象进行赋值
二.下载安装【这可以算是欧皇式安装了,有些人可能安装比较曲折一些,建议直接anconda整个安装完之后coda界面pip就好了,自己百度,教程很多,安装的方法好多,这个简单的是我们老师欧皇手气一遍过的,我就不一样了,装了好久,终于好了,有按这个方法装装不好的可以留言问我。】
1.在字符界面使用以下命令安装:【python版本默认装好了】
pip install scrapy
使用国内镜像安装:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
2.环境变量的配置{控制面板->系统和安全->系统->高级系统设置->环境变量->系统变量->path下添加自己python的安装路径和scripty路径}
3.pycharm中安装scrapy【file->setting->project interpreter->±>搜索框scrapy->下面的install package安装就欧克了】
安装成功!
三.使用scrapy创建爬虫项目【学过linux可能比较容易些,建议自己多练几遍】
1、创建爬虫项目
scrapy startproject 爬虫项目名称
示例如下:创建百度爬虫
Scrapy startproject prjbaiduspider
2、创建爬虫
cd 爬虫工程目录
输入
scrapy genspider 爬虫名称 爬取的域名
注意:爬虫名称不能和工程名称一致,并且,爬虫名称必须是唯一的
示例如下:
修改爬虫文件
import scrapy class BaiduspiderSpider(scrapy.Spider): name = ‘baiduspider’#爬虫名称 allowed_domains = [‘baidu.com’] start_urls = [‘https://www.baidu.com/’] def parse(self, response): print(type(response)) title=response.xpath("//title/text()").get() print(title) pass
3、 运行爬虫
Scrapy crawl 爬虫名称
注意:此命令必须再xxx.cfg同级目录下执行
4、 再settings.py文件中将爬取的规则设置为False【好多设置成不许爬,改了这个就不用这么难受了】
\# Obey robots.txt rules
ROBOTSTXT_OBEY = False
settings.py文件中将爬取的规则设置为False【好多设置成不许爬,改了这个就不用这么难受了】
\# Obey robots.txt rules
ROBOTSTXT_OBEY = False