大数据的开发过程,如图1-1所示。
图 1-1大数据开发通用步骤图
上图只是一个简化后的步骤和流程,实际开发中,有的步骤可能不需要,有的还需要增加步骤,有的流程可能更复杂,因具体情况而定。
下面以Google搜索引擎为例,来说明以上步骤。
1. 大数据采集
Google的数据来源于互联网上的网页,它们由Google Spider(蜘蛛、爬虫、机器人)来抓取,抓取的原理也很简单,就是模拟我们人的行为,来访问各个网页,然后保存网页内容。
Google Spider是一个程序,运行在全球各地的Google服务器之中,Spider们非常勤奋,日夜不停地工作。
2008年Google数据表明,它们每天都会访问大约200亿个网页,而在总量上,它们追踪着300亿个左右的独立URL链接。
可以说,只要是互联网上的网站,只要没有在robots.txt文件禁止Spider访问的话,其网页基本上都会在很短的时间内,被抓取到Google的服务器上。
全球的网页,这是典型的大数据。因此,Google Spider所做的就是典型的大数据采集工作。
2. 大数据预处理
Google Spider爬取的网页,无论是从格式还是结构等&