常见的爬虫题

最新推荐文章于 2022-10-11 18:35:29 发布

@人生苦短我用python

最新推荐文章于 2022-10-11 18:35:29 发布

阅读量698

点赞数

分类专栏： python爬虫文章标签：常见的爬虫题

python爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

scrapy框架的工作流程？

a、spider解析下载器下下来的response，返回item或是links
　　b、item或者link经过spidermiddleware的process_spider_out( )方法，交给engine
　　c、engine将item交给item pipeline ，将links交给调度器
　　d、在调度器中，先将requests对象利用scrapy内置的指纹函数生成一个指纹对象
　　e、如果requests对象中的don’t filter参数设置为False，并且该requests对象的指纹不在信息指纹的队列中，那么就把该request对象放到优先级队列中
　　f、从优先级队列中获取request对象，交给engine
　　g、engine将request对象交给下载器下载，期间会通过downloadmiddleware的process_request方法
　　h、下载器完成下载，获得response对象，将该对象交给engine，期间会经过downloadmiddleware的 process_response（）方法
　　i、engine将获得的response对象交给spider进行解析，期间会经过spidermiddleware的process_spider_input()的方法
　　j、从a开始循环

1，你了解的反爬机制，如何处理？

通过headers反爬虫

ip的访问频率

动态加载数据，通过ajax请求数据，或者通过js代码生成数据

部分数据加密处理

解决方法：

对于基本网页的抓取可以自定义headers,添加headers的数据
使用多个代理ip进行抓取或者设置抓取的频率降低一些，
动态网页的可以使用selenium + phantomjs 进行抓取
对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理。

2，scrapy的基本架构

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

3，scrapy的去重原理

1.找到Request类：需要将dont_filter设置为False开启去重，默认是True，没有开启去重；

2.对于每一个url的请求，调度器都会根据请求得相关信息加密得到一个指纹信息，并且将指纹信息和set()集合中的指纹信息进行比对，如果set()集合中已经存在这个数据，就不在将这个Request放入队列中。如果set()集合中没有存在这个加密后的数据，就将这个Request对象放入队列中，等待被调度。

4，scrapy中间件有哪几种类，你用过哪些？

下载中间件，爬虫中间件

5，scrapy中间件在哪起的作用

爬虫中间件：爬虫发起请求request的时候调用，列如更换修改代理ip,修改UA,

下载器中间件：浏览器返回响应response的时候调用，无效的数据，特殊情况进行重试

6，为什么会用到代理？

如果你一直用同一个代理IP爬取这个网页，很有可能IP会被禁止访问网页，所以，基本上做爬虫的都躲不过去IP的问题。

7，代理怎么使用？

1，可以使用urllib2中的ProxyHandler来设置代理ip

uillib2代理ip
2,使用requets代理

requests代理
8，代理失效了怎么处理？

View Code

9，爬取过程中，登录验证码如何处理？

抓取验证码图，对接打码平台进行处理返回
10，爬取速度过快，出现的验证码如何处理？

抓取验证码图，对接打码平台进行处理返回

11，如何用机器识别验证码？

对接打码平台

12，cookie如何处理？

requests.session

13，如何处理网站加密传参的情况？

简单加密可以使用selenium，或者执行js,存储cookie,手动修改cookie的值

也可以下载它们相关的APP

14，分布式的原理？

捅过重写scheduler和spider类，实现了调度、spider启动和redis的交互。实现新的dupefilter和queue类，达到了判重和调度容器和redis的交互，因为每个主机上的爬虫进程都访问同一个redis数据库，所以调度和判重都统一进行统一管理，达到了分布式爬虫的目的。

15，分布式如何判断爬虫已经停止了？

View Code
16，爬取下来的数据如何选择什么存储方式会更好

针对数据而定。

18，动态加载的数据如何提取？

动态网页的可以使用selenium + phantomjs 进行抓取

19，json数据如何提取？

json.loads, json.dumps

20，Python里面深拷贝，浅拷贝的区别？

浅拷贝不管几层只会拷贝第一层

拷贝就是在内存中重新开辟一块空间，不管数据结构多么复杂，只要遇到可能发生改变的数据类型，就重新开辟一块内存空间把内容复制下来，直到最后一层，不再有复杂的数据类型，就保持其原引用。这样，不管数据结构多么的复杂，数据之间的修改都不会相互影响

21，是否了解线程的同步和异步？

线程同步是多个线程同时访问同一资源，等待资源访问结束，浪费时间，效率低

线程异步：访问资源时在空闲等待时同时访问其他资源，实现多线程机制

22，链表和顺序表存储时各自有什么特点？

顺序表的优点是可以随机访问数据元素；

缺点是大小固定，不利于增删结点。

链表的优点是采用指针方式增减结点，非常方便（只需要改变指针指向，不移动结点）；

缺点是不能进行随机访问，另外，每个结点上增加指针域，造成额外存储空间增大。

23，使用redis搭建分布式系统时如何处理网络延迟和网络异常？

由于网络异常的存在，分布式系统中请求结果存在“三态”的概念，即三种状态：“成功”、“失败”、“超时（未知）”

当出现“超时”时可以通过发起读取数据的操作以验证 RPC 是否成功（例如银行系统的做法）

另一种简单的做法是，设计分布式协议时将执行步骤设计为可重试的，即具有所谓的“幂等性”

24，数据仓库是什么？

数据仓库是一个面向主题的、集成的、稳定的、反映历史变化的、随着时间的流逝发生变化的数据集合。它主要支持管理人员的决策分析。

数据仓库收集了企业相关内部和外部各个业务系统数据源、归档文件等一系列历史数据，最后转化成企业需要的战略决策信息。

特点：
面向主题：根据业务的不同而进行的内容划分；
集成特性：因为不同的业务源数据具有不同的数据特点，当业务源数据进入到数据仓库时，需要采用统一的编码格式进行数据加载，从而保证数据仓库中数据的唯一性；
非易失性：数据仓库通过保存数据不同历史的各种状态，并不对数据进行任何更新操作。
历史特性：数据保留时间戳字段，记录每个数据在不同时间内的各种状态。

25，假设有一个爬虫程序，从网络上的获取的频率快，本地写入数据的频率慢，使用什么数据结构比较好？

26，你是否了解谷歌的无头浏览器？

无头浏览器即headless browser，是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有，只是看不到界面而已。

Python中selenium模块中的PhantomJS即为无界面浏览器（无头浏览器）:是基于QtWebkit的无头浏览器，

27，你是否了解mysql数据库的几种引擎？

InnoDB：
InnoDB是一个健壮的事务型存储引擎，这种存储引擎已经被很多互联网公司使用，为用户操作非常大的数据存储提供了一个强大的解决方案。

在以下场合下，使用InnoDB是最理想的选择：

1.更新密集的表。InnoDB存储引擎特别适合处理多重并发的更新请求。

2.事务。InnoDB存储引擎是支持事务的标准MySQL存储引擎。

3.自动灾难恢复。与其它存储引擎不同，InnoDB表能够自动从灾难中恢复。

4.外键约束。MySQL支持外键的存储引擎只有InnoDB。

5.支持自动增加列AUTO_INCREMENT属性。

一般来说，如果需要事务支持，并且有较高的并发读取频率，InnoDB是不错的选择。

MEMORY：
使用MySQL Memory存储引擎的出发点是速度。为得到最快的响应时间，采用的逻辑存储介质是系统内存。

虽然在内存中存储表数据确实会提供很高的性能，但当mysqld守护进程崩溃时，所有的Memory数据都会丢失。

获得速度的同时也带来了一些缺陷。

一般在以下几种情况下使用Memory存储引擎：

1.目标数据较小，而且被非常频繁地访问。在内存中存放数据，所以会造成内存的使用，可以通过参数max_heap_table_size控制Memory表的大小，设置此参数，就可以限制Memory表的最大大小。

2.如果数据是临时的，而且要求必须立即可用，那么就可以存放在内存表中。

3.存储在Memory表中的数据如果突然丢失，不会对应用服务产生实质的负面影响。

28，redis数据库有哪几种数据结构？

5种数据结构

string

使用string时，redis大多数情况下并不会理解或者解析其含义，无论使用json、xml还是纯文本在redis看来都是一样的，只是一个字符串，只能进行strlen、append等对字符串通用的操作，无法针对其内容进一步操作。其基本操作命令有set、get、strlen、getrange、append：

1
2
3
4
5
SET key value
GET key
STRLEN key
GETRANGE key start end
APPEND key value
在大多数情况之外，就是string中存储的为纯数字的情况，redis可以将字符串当做数字进行进一步操作，这些操作包括decr、decrby、incr、incrby和incrbyfloat。

hash

使用hash时，在我看来，就是value本身就是一组key-value对，不过redis将这里的key称为field（但是hkeys命令为什么不叫hfields命令呢哈哈），也就是value是一组field-value对。其基本操作命令有hset、hget、hmset、hmget、hgetall、hkeys和hdel：

1
2
3
4
5
6
7
HSET key field value
HGET key field
HMSET key field value [field value …]
HMGET key field [field …]
HGETALL key
HKEYS key
HDEL key field [field …]
list

使用list时，value就是一个string数组，操作这组string时，可以像对待栈一样使用pop和push操作，但是这个栈两端都能进行操作；也可以像对待数组一样使用一个index参数来操作。list的操作命令略杂，主要分为两类：L开头的和R开头的，L代表LEFT或者LIST，进行一些从列表左端进行的操作，或者一些与端无关的操作；R代表RIGHT，进行一些从列表右端进行的操作。

set

set用于存储一组不重复的值，也可以进行一些集合的操作，就像数学上的集合，它是无序的。基本操作有sadd和sismember：

1
2
SADD key member [member …]
SISMEMBER key member
集合操作有：求交sinter、求并sunion和求差sdiff：

1
2
3
SINTER key [key …]
SUNION key [key …]
SDIFF key [key …]
sorted set

sorted set类似set，但是sorted set里每个元素都有一个score，这个score可用于排序和排名。基本操作有zadd、zcount、zrank：

1
2
3
ZADD key score member [score member …]
ZCOUNT key min max
ZRANK key member
29，对 name=='main’的理解

name__是当前模块名，当模块被直接运行时模块名为_main，也就是当前的模块，当模块被导入时，模块名就不是__main_，即代码将不会执行。

30，python是如何进行内存管理的？

a、对象的引用计数机制
python内部使用引用计数，来保持追踪内存中的对象，Python内部记录了对象有多少个引用，即引用计数，当对象被创建时就创建了一个引用计数，当对象不再需要时，这个对象的引用计数为0时，它被垃圾回收。
b、垃圾回收
1>当一个对象的引用计数归零时，它将被垃圾收集机制处理掉。
2>当两个对象a和b相互引用时，del语句可以减少a和b的引用计数，并销毁用于引用底层对象的名称。然而由于每个对象都包含一个对其他对象的应用，因此引用计数不会归零，对象也不会销毁。（从而导致内存泄露）。为解决这一问题，解释器会定期执行一个循环检测器，搜索不可访问对象的循环并删除它们。
c、内存池机制
Python提供了对内存的垃圾收集机制，但是它将不用的内存放到内存池而不是返回给操作系统。
1>Pymalloc机制。为了加速Python的执行效率，Python引入了一个内存池机制，用于管理对小块内存的申请和释放。
2>Python中所有小于256个字节的对象都使用pymalloc实现的分配器，而大的对象则使用系统的malloc。
3>对于Python对象，如整数，浮点数和List，都有其独立的私有内存池，对象间不共享他们的内存池。也就是说如果你分配又释放了大量的整数，用于缓存这些整数的内存就不能再分配给浮点数。

31，__new)_和__init__的区别

new:它是创建对象时调用，会返回当前对象的一个实例，可以用_new_来实现单例

init:它是创建对象后调用，对当前对象的一些实例初始化，无返回值

32，常用的网络爬取方法

正则表达式

Beautiful Soup

Lxml

33，urllib 和urllib2的区别？

urllib 和urllib2都是接受URL请求的相关模块，但是urllib2可以接受一个Request类的实例来设置URL请求的headers，urllib仅可以接受URL。urllib不可以伪装你的User-Agent字符串。
urllib提供urlencode()方法用来GET查询字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起使用的原因。

34，列举爬虫用到的网络数据包，解析包？

网络数据包 urllib、urllib2、requests

解析包 re、xpath、beautiful soup、lxml

35，手写一个单列模式？

单列模式
36，常用的网络爬取方法？

urllib2 , Beautiful Soup 正则 xpath

37，代码实现删除list里面的重复元素

set

38，手写代码二分查找

39，python2和python3的区别

40，python的装饰器，手写

41，python常用的内置库，

42，如何做增量式爬取？

去爬帖子列表页，每次都把当前页的 url 和数据库中的对比，如果没有重复的说明，这一夜都是新的 URL，然后下一页，直到出现部分重复或完全重复的页面

43，简述beautifulsoup模块的作用及基本使用？

BeautifulSoup是一个模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化，之后遍可以使用他提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单。

44，seleniun模块的作用及基本使用？

操作浏览器

45，scrapy如何实现大文件的下载？

当使用requests的get下载大文件/数据时，建议使用使用stream模式。

当把get函数的stream参数设置成False时，它会立即开始下载文件并放到内存中，如果文件过大，有可能导致内存不足。

当把get函数的stream参数设置成True时，它不会立即开始下载，当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载。需要注意一点：文件没有下载之前，它也需要保持连接。

iter_content：一块一块的遍历要下载的内容
iter_lines：一行一行的遍历要下载的内容
使用上面两个函数下载大文件可以防止占用过多的内存，因为每次只下载小部分数据。

示例代码：

View Code

46，scrapy如何实现限速？

在settings里面,
DOWNLOAD_DELAY = 0.25 # 250 ms of delay

47，scrapy如何实现暂停爬虫程序？

实现暂停与重启记录状态

方法一：

1、首先cd进入到scrapy项目里（当然你也可以通过编写脚本Python文件直接在pycharm中运行）

2、在scrapy项目里创建保存记录信息的文件夹

3、执行命令：

scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径

如：scrapy crawl cnblogs -s JOBDIR=zant/001

执行命令会启动指定爬虫，并且记录状态到指定目录

爬虫已经启动，我们可以按键盘上的ctrl+c停止爬虫，停止后我们看一下记录文件夹，会多出3个文件，其中的requests.queue文件夹里的p0文件就是URL记录文件，这个文件存在就说明还有未完成的URL，当所有URL完成后会自动删除此文件

当我们重新执行命令：scrapy crawl cnblogs -s JOBDIR=zant/001 时爬虫会根据p0文件从停止的地方开始继续爬取。

方法二：

在settings.py文件里加入下面的代码：

JOBDIR=‘sharejs.com’
使用命令scrapy crawl somespider，就会自动生成一个sharejs.com的目录，然后将工作列表放到这个文件夹里

48，scrapy如何进行自定制指令？

单爬虫运行

代码：

View Code
同时运行多个爬虫

步骤如下：

在spiders同级创建任意目录，如：commands
在其中创建 crawlall.py 文件（此处文件名就是自定义的命令）
在settings.py 中添加配置 COMMANDS_MODULE = ‘项目名称.目录名称’
在项目目录执行命令：scrapy crawlall
代码：

View Code
49，scrapy如何实现记录爬虫的深度？

通过scrapy.CrawlSpider

50，scrapy中的pipelines工作原理？

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义的顺序处理Item。

每个Item Pipeline都是实现了简单方法的Python类，比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用：

验证爬取的数据(检查item包含某些字段，比如说name字段)
查重(并丢弃)
将爬取结果保存到文件或者数据库中
51，简述scrapy爬虫中间件和下载中间件的作用？

52，scrapy-redis组件的作用？

scheduler - 调度器
dupefilter - URL去重规则（被调度器使用）
pipeline - 数据持久化
53，scrapy-redis组件中如何实现任务的去重？

dupefilter - URL去重规则（被调度器使用）
54，scrapy-redis的调度器如何实现任务的深度优先和广度优先？

55，手写正则匹配邮箱，手机号，一段html内容

56，robots协议是什么？

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

57，常见的http状态码？

View Code
58，http的请求和响应都包含哪些内容？

View Code

@人生苦短我用python

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常见的爬虫题

scrapy框架的工作流程？a、spider解析下载器下下来的response，返回item或是links　　b、item或者link经过spidermiddleware的process_spider_out( )方法，交给engine　　c、engine将item交给item pipeline ，将links交给调度器　　d、在调度器中，先将requests对象利用scrapy内置的指纹...
复制链接

扫一扫

专栏目录