大数据定义:一种规模大到一种规模大到在获取、存储、管理、分析方面大大超出的传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
从狭义上讲,大数据主要是指大数据技术及其他在各个领域中的应用
大数据具有4个基本特征,数据规模大,数据种类多,处理速度快以及数据价值密度低及4V
BI商业智能
网络爬虫是搜索引擎抓取系统的重要组成部分
整个搜索引擎系统主要包含四个模块,分别为信息搜索模块、信息索引模块、信息检索模块和用户接口部分,而网络爬虫便是信息搜索模块的核心。
深度优先策略的优点是能遍历一个web站点或深层嵌套的文档集合。缺点是因为web结构相当深,有可能造成一旦进去再也出不来的情况发生。
广度优先策略可以让网络爬虫并行处理,提高其抓取速度。广度优先策略通常是实现爬虫的最佳策略
第三方指两个相互联系的主体之外的某个客体