数据之美——读书笔记3

facebook数据收集和存储平台

构建一个离线信息库,一方面用Python脚本把查询分发到facebook的MySQL服务器,另一方面用C++实时处理事件日志。

通过ETL框架、数据仓库和内部控制台构建了一个简单的商业智能(BI)系统。

商业智能系统

仅仅收集和聚集数据是远远不够的,还需要利用数据传播进行推断的洞察力,有选择的将信息转移到需求上。

ETL有规律的将已知数据源中的数据抽取出来并加载到数据仓库中,商业分析师利用商业智能工具在数据仓库生成报告供内部使用。

庞大的数据无法通过关系数据库管理,要求系统能从无结构化数据和结构化数据中抽取信息。

“分面搜索”技术:使用结构化的元数据遍历文档集。

猎豹和大象

Cheetah(猎豹)并发日志处理系统,快速处理大规模数据集 加载、索引和聚集操作。

不足:不能二次查询,无法应用复杂的加载共享逻辑,不开源。

Hadoop(大象)分布式文件系统+Mapreduce技术,加载所有的访问日志,通过简单的MapReduce任务来分析Facebook在一些国家迅猛增长的原因。

现代商业智能系统的变革:除了在一个系统管理结构化和非结构化的数据,还必须扩展到可以存储足够多的数据,采取“简单模型,大量数据”的方法实践机器学习。

数据仓库Hive,类似SQL,支持嵌入式MapReduce逻辑、表分区、抽样和处理任意序列化数据的能力。

数据科学家

未来属于数据科学家

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值