大数据

大数据是指规模巨大、处理速度快、数据类型多样、价值密度低的数据集合,它超越了传统数据库的处理能力。网络爬虫作为搜索引擎的重要组成部分,采用深度优先和广度优先策略抓取信息。深度优先策略可能陷入深层结构无法返回,而广度优先策略则能并行处理,提高抓取效率。
摘要由CSDN通过智能技术生成

大数据定义:一种规模大到一种规模大到在获取、存储、管理、分析方面大大超出的传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

从狭义上讲,大数据主要是指大数据技术及其他在各个领域中的应用

大数据具有4个基本特征,数据规模大,数据种类多,处理速度快以及数据价值密度低及4V

BI商业智能

网络爬虫是搜索引擎抓取系统的重要组成部分

整个搜索引擎系统主要包含四个模块,分别为信息搜索模块、信息索引模块、信息检索模块和用户接口部分,而网络爬虫便是信息搜索模块的核心。

c3ee1428963847bb896fac873e876c57.jpg14a49c3fdc3d4cce9a5679f8bab315f4.jpg

深度优先策略的优点是能遍历一个web站点或深层嵌套的文档集合。缺点是因为web结构相当深,有可能造成一旦进去再也出不来的情况发生。

广度优先策略可以让网络爬虫并行处理,提高其抓取速度。广度优先策略通常是实现爬虫的最佳策略

第三方指两个相互联系的主体之外的某个客体

da830e01919d4ca1948c4e860b1108e3.jpg

30ed7ccb2de143dcb923d41319a5e18a.jpg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值