facebook数据收集和存储平台
构建一个离线信息库,一方面用Python脚本把查询分发到facebook的MySQL服务器,另一方面用C++实时处理事件日志。
通过ETL框架、数据仓库和内部控制台构建了一个简单的商业智能(BI)系统。
商业智能系统
仅仅收集和聚集数据是远远不够的,还需要利用数据传播进行推断的洞察力,有选择的将信息转移到需求上。
ETL有规律的将已知数据源中的数据抽取出来并加载到数据仓库中,商业分析师利用商业智能工具在数据仓库生成报告供内部使用。
庞大的数据无法通过关系数据库管理,要求系统能从无结构化数据和结构化数据中抽取信息。
“分面搜索”技术:使用结构化的元数据遍历文档集。
猎豹和大象
Cheetah(猎豹)并发日志处理系统,快速处理大规模数据集 加载、索引和聚集操作。
不足:不能二次查询,无法应用复杂的加载共享逻辑,不开源。
Hadoop(大象)分布式文件系统+Mapreduce技术,加载所有的访问日志,通过简单的MapReduce任务来分析Facebook在一些国家迅猛增长的原因。
现代商业智能系统的变革:除了在一个系统管理结构化和非结构化的数据,还必须扩展到可以存储足够多的数据,采取“简单模型,大量数据”的方法实践机器学习。
数据仓库Hive,类似SQL,支持嵌入式MapReduce逻辑、表分区、抽样和处理任意序列化数据的能力。
数据科学家
未来属于数据科学家