爬虫的DNS缓存

最新推荐文章于 2024-07-09 12:04:56 发布

清浅丶

最新推荐文章于 2024-07-09 12:04:56 发布

阅读量2.5k

点赞数

本文链接：https://blog.csdn.net/qq_29450455/article/details/78709901

版权

爬虫中的DNS缓存的实现

一、实验背景

在实现爬虫的过程中，需要对域名进行DNS解析，要向DNS服务器发起请求。当爬虫的量达到十万、千万级别时，这一部分的耗时就非常可观了，同时也给服务器增大了复旦。因此需要对其进行优化，使其能实现DNS缓存，不必发起太多请求。

二、实现方法

首先想到的就是修改hosts文件，这样能直接省下向DNS发起请求的时间。但是缺点是无法实时更新，如果域名和IP发生了变化则需要手动更改。若未及时更新，甚至可能导致爬虫没有结果。

于是我们想到的方法就是每次查询之前查询请求的域名是否存在于缓存中，查阅资料后可以得出代码：

import socket

_dnscache = {}#dns缓存list，用来记录域名和对应的IP

def _setDNSCache():

def igetaddrinfo(*args,**kwargs):

if args in _dnscache: #查询请求的域名是否在DNS缓存中

return_dnscache[args]

else:

_dnscache[args] = socket.igetaddrinfo(*args,**kwargs)

#调用igetaddrinfo将DNS加入缓存

return _dnscache[args]

if not hasattr(socket, 'igetaddrinfo'):

#将socket类的getddrinfo打一个patch&#

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

清浅丶

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爬虫库（Requests-Cache爬虫缓存）

qq_35194427的博客

07-29

4537

Requests-Cache爬虫缓存简述安装在Requests中使用缓存简述 Requests模块的扩展功能，通过Requests发送请求来生成相应的缓存数据。当Requests重复向同一个URL发送请求的时候，Requests-Cache会判断当前请求是否已产生缓存，若已有缓存，则从缓存里读取数据作为响应内容；若没有缓存，则向网站服务器发送请求，并将得到的响应内容写入相应的数据库里。减少网络资源重复请求的次数，不仅减轻了本地的网络负载，而且还减少了爬虫对网站服务器的请求次数，这也是解决反爬虫机制的一个

Python爬虫DNS解析缓存方法实例分析

python爬虫开发教程

03-23

1310

本文实例讲述了Python爬虫DNS解析缓存方法。分享给大家供大家参考，具体如下：前言：这是Python爬虫中DNS解析缓存模块中的核心代码，是去年的代码了，现在放出来有兴趣的可以看一下。一般一个域名的DNS解析时间在1060毫秒之间，这看起来是微不足道，但是对于大型一点的爬虫而言这就不容忽视了。例如我们要爬新浪微博，同个域名下的请求有1千万（这已经不算多的了），那么耗时在1060万秒之间...

参与评论您还未登录，请先登录后发表或查看评论

[爬虫学习笔记]DNS解析服务增加缓存机制

weixin_33824363的博客

09-11

154

之前我们已经基于ARSoft.Tools.Net简单实现了DNS解析模块的功能，但是当性能要求升高时，每一次爬取都要进行DNS请求，甚至很有可能一段时间内每次请求的都是相同的地址，频繁的DNS请求就会成为性能瓶颈，所以我们要通过缓存机制将DNS解析结果缓存下来，降低DNS解析操作，提升系统性能。如此，我们基于之前封装的MemoryCacheHelper类对DnsRes...

DNS缓存详解

最新发布

qq_62311779的博客

07-09

1027

1.浏览器查找顺序浏览器缓存 > 操作系统缓存 > 本地Hosts文件 > DNS服务器查询 2.cmd ping查找顺序（非浏览器）本地Hosts文件 > 操作系统缓存 > DNS服务器查询

爬虫（3）-- 下载缓存

ouprince

05-15

434

内存缓存将下载的网页缓存到内存，以避免碰到相同的网页重新下载，同时提供时间限速功能。定义一个下载类 class Downloader: def __init__(self,decay = 5,user_agent = 'wswp',proxies = None, num_retries = 1,cache = None): s...

C++网络爬虫项目

07-04

 爬虫通过“DNS解析” 将读到的URL转换为网站服务器的IP地址；  爬虫将网站服务器的IP地址、通信端口、网页路径等信息交给“网页下载” 器；  “网页下载”器负责从“互联网”上下载网页内容；  对于已经...

python网络爬虫——下载缓存(磁盘)

mashaokang1314的博客

08-16

655

为链接爬虫添加缓存支持将之前的download函数重构为一个类，将限速功能放到下载函数中，只有在真正的下载时在会触发限速，而在加载时不会触发。 #DownLoad.py import random import re import socket import urllib2 import urlparse import time import datetime #设置代理服务器 DE...

为链接爬虫添加缓存支持

ykm18811712927的博客

05-20

648

#-*- coding:UTF-8 -*- #原来创建对象时或者是调用类以外的方法时提示没有定义是因为这些类或方法的位置不应该放在主函数后面，而应该放在主函数前面 import urlparse import urllib2 import random import time from datetime import datetime, timedelta import socket import

python网络爬虫——下载缓存(数据库)

mashaokang1314的博客

08-17

549

数据库缓存介于磁盘缓存的限制，爬取到的数据量比较大，但又无任何复杂的连接，所以选用NoSQL数据库，这种数据库相比创痛的关系型数据库更容易扩展。什么是NoSQL? NoSQL全称Not Only SQL,与传统的关系型数据库不同，NoSQL数据库通常是无模式的，考虑了跨服务器无缝分片问题。有多种方式可以实现该目标，分别是列数据存储(HBase)、键值对存储(Redis)、面向文档的数据库...

Python3.X 爬虫实战（缓存与持久化）

热门推荐

工匠若水

06-27

1万+

缓存与持久化简单说就是 Cache 或者 Persistence 了，这玩意和爬虫有啥关系呢？想象一下如果我们需要对同一个页面进行多次解析，我们前面的代码都会重新发起真实网络请求，这是不合理的，因为短期之内这个页面是不可能有更新的，我们重复拉取是没有意义的；其次我们很多时候爬虫的输出器其实就是需要把爬取的数据依据需求多元化的持久化下来，所以我们有必要先掌握常见的爬虫相关缓存及持久化。

Python中的爬取缓存

Itsme_MrJJ的博客

06-16

979

缓存机制，可以帮助我们抓取相同数据时效率提高好几倍，但并不是所有的爬虫项目都需要构建缓存机制，这一节，讲解缓存机制的使用场景，以及磁盘缓存和数据库缓存。

python网络爬虫磁盘缓存数据

LYY的学习和记录

11-14

586

import os import re import urllib.parse import pickle class DiskCache: def __init__(self,cache_dir='cache'): self.cache_dir=cache_dir def __getitem__(self, item): '''获取缓存'''...

爬虫代理的数据缓存及网络延迟

Z_suger7的博客

12-22

470

为了提高客户的爬虫采集效率，降低目标服务器的反爬风险，一般爬虫代理关闭了目标服务器的缓存特性，每一次用户请求都真实进行转发，避免了服务器或防火墙因为反爬而出现的返回缓存数据，从而导致采集数据失真的情况。当研发进行爬虫代理对比测试的时候，可能会发现一个现象，有一些爬虫代理每次请求的延迟都很稳定，而另外一部分爬虫代理产品会出现第一次HTTP请求延迟很高，接下来大量的请求延迟非常低（甚至低于服务器响应时间）的假象，如下图上图的情况就是这类代理服务器缓存了数据，然后爬虫程序请求相同链接的时候，会出现重复数据并且

[007]爬虫系列 | DNS篇（一）

GC怪兽的Blog

03-13

1182

一、备注: 以下所有图片均来自RFC和Wireshark截图报文均由WireShark抓取所得二、DNS主要组成 Header 头部 Question DNS请求 Answer 回答请求的资源记录 Authority 指向域的资源记录 Additional ...

爬虫dns cache设置

nimade511的专栏

03-09

929

设置代理服务器squid的dns positive_dns_ttl 6 hours #设置为6小时，这个值取dns返回的ttl最小值 dns_nameservers 8.8.8.8 #设置google dns服务器设置nscd enable-cache hosts yes #和squid设置差不多 python requests设...

关于Python爬虫Scrapy在高并发下DNS查找失败解决方案

weixin_43667643的博客

08-15

1926

使用场景:检测80w URL 可否打开配置:高端配置,20+进程 500+CONCURRENT_REQUESTS 运行一段时间后会有DNSLookup什么的错误,也就是查找超时,但是在浏览器里可以打开这个网页首先做一些可能的无用功,爬虫配置 : ‘COOKIES_ENABLED’: False, ‘RETRY_ENABLED’: False,‘DNS_TIMEOUT’: 60, 再配置可能的...

爬虫requests卡死，dns解析问题

qq_43472841的博客

01-28

1166

关于python爬虫requests请求，dns解析卡死问题 1 使用外部dns解析，如阿里dns 2 import socket socket.setdefaulttimeout(时间) 3 改变本机hosts，过滤dns解析

Python Scrapy：定制网络爬虫入门与挑战

DNS查询效率是另一个关键因素，Scrapy通过优化DNS查询来提升整体性能。同时，尊重网站的规则十分重要，开发者需要遵守robots.txt文件中的限制，以避免侵犯网站的隐私和版权。网页分析则是爬虫技术的另一个挑战。...