python爬虫意味什么_Python爬虫的名词有什么意义?

在上一篇文章当中学记给大家展示了 Scrapy 爬虫框架在爬取之前的框架文件该如何设置。在上一篇文章当中,是直接以代码的形式进行描述的,在这篇文章当中学记会解释一下上一篇文章当中爬虫代码当中的一些名词的用法。

8601a18b87d6277f284dbfb59af2e935e824fc35.jpeg?token=f988b93d895a0a02553aaf583f27393d&s=AD22C71517427F4914FC396C0300B070

在Scrapy爬虫框架中,所有自定义的爬虫都是从这个scrapy.spiders.Spider父类继承下来的,也就是说在这个爬虫框架当中,所有的爬虫代码所适用的的属性和方法都是由此父类规定的。

在这个父类中规定的各个名词的用法如下:

1.name:言简意赅,就是爬虫的名字。

2.allowed_domains:允许爬取的域名,不在此范围的链接不会被跟进爬取。

3.start_urls:起始URL列表,一般会从这个列表开始爬取。

4.custom_settings:用来存放爬虫专属配置的字典,这里的设置会覆盖全局的设置。

5.crawler:与爬虫对应的Crawler对象,利用它可以获取项目的配置信息,如调用crawler.settings.get()。

6.settings:用来获取爬虫全局设置的变量。

7.start_requests():用于生成初始请求,该方法默认使用GET请求访问起始URL。

8.parse():它负责处理Response对象并返回结果,从中提取出需要的数据和后续的请求。

9.closed():当爬虫进程结束之后,该方法会被调用,通常用来做一些释放资源的善后操作。

我们来看一下上一篇文章当中关于 爬虫部分的代码 :

# -*- coding: utf-8 -*- #设置字符格式为 utf-8.

importscrapy

fromscrapy.selector import Selector

fromscrapy.linkextractors importLinkExtractor

fromscrapy.spiders import CrawlSpider, Rule

frombaidu.items import baiduItem

classImageSpider(CrawlSpider):

name= 'image' #即爬虫的名字,主要爬取图片

allowed_domains = ['tieba.baidu.com'] #只爬取百度贴吧内的图片。

start_urls= ['https://tieba.baidu.com/'] #起始爬取 url

rules = (

Rule(LinkExtractor(allow=(r'https://tieba.baidu.com\?start=\d+.*'))),

Rule(LinkExtractor(allow=(r'https://tieba.daidu.com/subject/\d+')), callback='parse_item'),

)

defparse_item(self, response):

sel= Selector(response)

item = baiduItem()

item['name']=sel.xpath('//*[@id="content"]/h1/span[1]/text()').extract()

item['year']=sel.xpath('//*[@id="content"]/h1/span[2]/text()').re(r'\((\d+)\)')

returnitem

一般来说,就是这样的用法,上述的名词在整个爬虫代码当中只占很小的一部分。

如果想学习更多科技知识,可以点击关注。

如果对文章中的内容有什么困惑的地方,可以在评论区提出自己的问题,学记同大家一起交流,解决各种问题,一起进步。

青年学记 陪伴着各位青年

8326cffc1e178a827a69ddd844c98588a877e846.jpeg?token=1f0a7a387acff8ce05536b347350afb3&s=34707F366F237C0506589DD2030010F1

作者:青年学记 一名不断进步的程序猿

一起学习 一起进步

走向自立

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值