python scrapy框架爬虫_python网络爬虫(2)——scrapy框架的基础使用

这里写一下爬虫大概的步骤,主要是自己巩固一下知识,顺便复习一下。

一,网络爬虫的步骤

1,创建一个工程

scrapy startproject 工程名称

创建好工程后,目录结构大概如下:

1226410-20190717092758583-1621806659.png

其中:

scrapy.cfg:项目的主配置信息(真正爬虫相关的配置信息在settings.py文件中)

items.py:设置数据存储模板,用于结构化数据,如:Django的Model

pipelines:数据持久化处理

settings.py:配置文件,如:递归的层数,并发数,延迟下载等

spiders:爬虫目录,如:创建文件,编写爬虫解析规则

2,在工程目录下创建一个爬虫文件

1, cd 工程

2,scrapy genspider example example.com

其中: example:表示爬虫文件的名称

example.com 表示起始的url(这个url可以随意写,最后在文件中修改即可)

3,对应的文件中编写爬虫程序来完成爬虫的相关操作

打开first.py,然后进入编写:

1226410-20190717093903886-1024860224.png

4,配置文件的编写

进入settings.py 中修改2个地方:

1,在大概19行中:对请求载体的身份进行伪装

我们可以去谷歌中找一个User-Agent的值 复制进去。效果如下:

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

2,在大概22行中,修改robots协议

robots协议是君子协议,大概爬虫的话,我们可以不遵照这个协议,哈哈哈哈

ROBOTSTXT_OBEY = False

5,执行

scrapy crwal 爬虫文件的名称 --nolog(组织日志信息的输出)

# 输出打印信息

scrapy crawl first

# 不输出打印信息

scrapy crawl first --nolog

效果如下:

1226410-20190717093124228-969415828.png

【爬取的是杨子晚报,这里就以此为例,创建scrapy爬虫 网址:http://www.yangtse.com/】

第一步:安装scrapy框架

(这里不做详细介绍了,要是安装遇到问题的朋友们,可以参考下面链接

第二步:创建scrapy爬虫文件

格式:scrapy startproject + 项目名称

scrapy startproject yangzi

第三步:进入爬虫文件

格式:cd 项目名称

cd yangzi

第四步:创建爬虫项目

格式:scrapy genspider -t basic 项目名称 网址

具体用法如下:

1226410-20190717135225206-1888942096.png

scrapy genspider -t basic yz http://www.yangtse.com/

创建好了,如下图:

1226410-20171208162839124-500660120.png

解释一下文件:

scrapy.cfg:项目的配置文件

yangzi:该项目的python模块。之后您将在此加入代码。

yangzi/items.py:项目中的item文件。

yangzi/pipelines.py:项目中的pipelines文件。

yangzi/yz/:放置spider代码的目录。

第五步:进入爬虫项目中,先写items

写这个的目的就是告诉项目,你要爬去什么东西,比如标题,链接,作者等.

Item是保存爬取到的数据的容器:其使用方法和python字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

类似在ORM中做的一样,你可以通过创建一个scrapy.Item类,并且定义类型为scrapy.Field的类属性来定义一个Item。

首先根据需要从dmoz.org获取到的数据对item进行建模。我们需要从dmoz中获取名字,url,以及网站的描述。对此,在item中定义相应的字段。

以我写的为例,我想爬取标题,链接,内容,如下:

classYangziItem(scrapy.Item):#define the fields for your item here like:

#标题

title =scrapy.Field()#链接

link =scrapy.Field()#内容

text = scrapy.Field()

第六步:进入pipelines,设置相应程序

分析爬去的网站,依次爬取的东西,因为pipelines是进行后续处理的,比如把数据写入MySQL,或者写入本地文档啊等等,就在pipelies里面写。这里直接输出,不做数据库的导入处理

classYangziPipeline(object):defprocess_item(self, item, spider):print(item["title"])print(item["link"])return item

第七步:再写自己创建的爬虫

(其实,爬虫和pipelines和settings前后顺序可以颠倒,这个不重要,但是一定要先写items)

Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。

其包含了一个用于下载的初始url,如何跟进网页中的链接以及如何分析页面中的内容,提取生成item的方法。

为了创建一个Spider,您必须继承scrapy.Spider类,且定义以下三个属性:

name:用于区别Spider。改名字必须是唯一的,您不可以为不同的Spider设定相同的名字。

start_urls:包含了Spider在启动时进行爬取的url列表。因此,第一个被获取的页面给将是其中之一。后续的URL则从初始的URL获取到的数据中提取。

parse():是spider的一个方法。被调用时,每个初始url完成下载后生成的Response对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的Request对象。

进入爬虫后,先导入items,接下来需要创建一个ITEM容器,

it = YangziItem()

然后写自己的要爬去的内容,分析网页后,利用xpath写

defparse(self, response):

it=YangziItem()

it["title"] = response.xpath('//div[@class="box-text-title]/text()').extract()

it["link"] = response.xpath('//a[@target="_blank"]/@href').extract()#it["text"] = response.xpath().extract()

yield it

第八步:设置settings

在settings中配置pipelines(ctrl+f 找到pipelines,然后解除那三行的注释,大约在64-68行之间),如下图

1226410-20171208164629124-1928613319.png

第九步:运行爬虫文件

scrapy crawl yz

scrapy crawl yz --nolog #不想显示日志文件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Scrapy是一个基于Python爬虫框架,它可以帮助我们快速高效地抓取网站数据。在这里,我将介绍Scrapy的基本用法,让您能够快速入门。 安装Scrapy ----------------------- 在安装Scrapy之前,我们需要先安装Python。然后,我们可以通过以下命令来安装Scrapy: ``` pip install scrapy ``` 创建Scrapy项目 ----------------------- 创建Scrapy项目的命令是: ``` scrapy startproject project_name ``` 这个命令将会在当前目录下创建一个名为project_name的文件夹,其中包含了Scrapy项目的基本结构。 编写Spider ----------------------- 在Scrapy中,Spider是用来定义爬取网站的规则的。我们可以通过以下命令来创建一个Spider: ``` scrapy genspider spider_name domain_name ``` 其中,spider_name是我们自己定义的Spider名称,domain_name是我们要抓取的网站域名。 接下来,我们需要在Spider中定义如何爬取网站。这里我们以爬取“http://quotes.toscrape.com/”网站上的名言警句为例。我们可以在Spider中定义如下规则: ```python import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/', ] def parse(self, response): for quote in response.css('div.quote'): yield { 'text': quote.css('span.text::text').get(), 'author': quote.css('span small::text').get(), 'tags': quote.css('div.tags a.tag::text').getall(), } next_page = response.css('li.next a::attr(href)').get() if next_page is not None: yield response.follow(next_page, self.parse) ``` 在上述代码中,我们首先定义了Spider的名称,接着定义了我们要爬取的起始URL,最后定义了如何解析网页的函数parse()。在parse()函数中,我们使用Scrapy的选择器来提取网页中的名言警句,并将其保存到字典中。接着,我们使用response.follow()函数来获取下一页的URL,并继续解析。 运行Spider ----------------------- 要运行我们刚才创建的Spider,我们可以使用以下命令: ``` scrapy crawl spider_name ``` 其中,spider_name是我们之前创建的Spider名称。 Scrapy会自动去抓取我们定义的起始URL,并根据我们定义的规则来解析网页。解析完成后,Scrapy会将结果保存到我们指定的位置。 总结 ----------------------- Scrapy是一个非常强大的Python爬虫框架,它可以帮助我们快速高效地抓取网站数据。在本教程中,我们介绍了Scrapy项目的创建、Spider的定义以及如何运行Spider。如果您想更深入地学习Scrapy,可以参考官方文档:https://docs.scrapy.org/en/latest/。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值