1、大数据定义: 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据的规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
2、大数据的四大特征 (4V) (1)数据规模大; (2)数据种类多; (3)处理速度快; (4)数据价值密度低。
3、数据获取(网络爬虫) (1) 概念: 网络爬虫又称为网络蜘蛛、网络机器人。整个 搜索引擎系统主要包含4个模块,分别为信息搜索模块、信息索引模块、信息检索模块和用户接口部分,而网络爬虫便是信息搜索模块的核心。 (2) 抓取策略 深度优先策略: 在开发爬虫早期使用较多的方法。优点: 能遍历一个Web站点或深层嵌套的文档集合。缺点: 因为Web结构相当深,有可能造成一旦进去再也出不来的情况发生。 广度优先策略: 通常是实现爬虫的最佳策略,可以让网络爬虫并行处理,提高其抓取速度。