云计算与分布式概述

本文探讨了分布式技术在网络爬虫中的应用,通过分布式爬虫提高性能和降低成本。随着云计算的崛起,两者结合进一步推动了技术发展。分布式系统是网络互联处理单元的集合,强调资源分散控制和协同执行。云计算作为分布式处理的延伸,提供了大规模计算、虚拟化和按需服务的优势。Google的GFS、MapReduce和BigTable构成了云计算基础,Apache的HDFS、HBase和Hadoop则实现了类似的技术,被广泛应用于业界。
摘要由CSDN通过智能技术生成

一般来说单个爬虫的性能有限,不能再合理的时间范围内抓取到足够数目的相关网页。所以在实际的应用中一般做法是设计一个分布式的爬虫,让每个爬虫节点就近抓取靠近他的网站,然后把结构进行整合反馈给用户。分布式技术应用于网络爬虫中,不仅可以降低运营的成本,而且能够大幅度提高爬虫的性能。尤其是在当今云计算正处于飞速发展时期,更是带动了分布式技术的发展。

所谓分布式技术其实质上是一种基于网络的计算机处理技术。一个分布式系统(Distributed System)是一组逻辑和物理上互联的处理单元的集合。其实质就是对资源的系统范围的分散控制,以达到应用程序的协同执行。这种系统不要求单台计算机的功能十分强大,故能降低成本。分布式系统具有快速访问、多用户使用的优点。系统中的每台计算机可以方便快捷的访问其他内部节点的信息文件,它既可以为本地用户的特殊要求服务,也可以为网络中其他用户服务,实现不同计算机之间的通信与协同工作。

云计算(Cloud Computing)是分布式处理、并行处理、网格计算的发展,是虚拟化、效用计算、IaaS、PaaS、SaaS等概念混合跃升的结果。基本原理是将计算任务分布在云端的大量的分布式计算机上、数据也存储在云端,使得企业将有限的资源切换到需要的应用上,降低企业运行的成本。这样带来的结果是中小企业不需要购置专门的计算机系统去满足某一应用需求,只需要想云计算中心支付服务费即可获得响应服务,而云计算中心则大规模的云,以向用户提供服务。总的来说云计算具有如下的特点:超大规模云计算集群、虚拟化、高可靠性、通用性、按需服务、极其廉价。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值