大数据
wbj0110
这个作者很懒,什么都没留下…
展开
-
海量数据处理常用思路和方法(转)
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对 于原理来说很简单,位...原创 2013-11-18 08:35:13 · 114 阅读 · 0 评论 -
淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何 从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的...原创 2013-12-03 09:42:09 · 170 阅读 · 0 评论 -
如何“打败”CAP定理(转)
CAP定理指出,一个数据库不可能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition-Tolerance)。 一致性(Consistency)是指执行了一次成功的写操作之后,未来的读操作一定可以读到这个写入的值。可用性(Availability)是 指系统总是可读可写的。Yammer的Coda Hale和Cloudera的Henr...原创 2014-01-17 10:40:05 · 115 阅读 · 0 评论 -
图解Hadoop分布式文件系统工作原理
微博上看到的一张关于HDFS的图片,形象生动的解释的HDFS的工作原理,再确切一点是 写操作的的基本过程: 1 一个集群中只有一个NameNode,可以有多个DataNodes 2 namenode 承担数据的位置存储信息,并将存储位置信息告诉client端! 3 得到位置信息后,client端开始写数据 4 写数据的时候是将数据分块,并存储为多份(一般为3份),放在不...原创 2013-09-04 11:31:23 · 104 阅读 · 0 评论 -
大众点评的大数据实践(转)
2011年小规模试水这一阶段的主要工作是建立了一个小的集群,并导入了少量用户进行测试。为了满足用户的需求,我们还调研了任务调度系统和数据交换系统。我们使用的版本是当时最新的稳定版,Hadoop 0.20.203和Hive 0.7.1。此后经历过多次升级与Bugfix。现在使用的是Hadoop 1.0.3+自有Patch与Hive 0.9+自有Patch。考虑到人手不足及自己的Patch...原创 2014-03-26 09:57:32 · 213 阅读 · 0 评论 -
Hadoop集群配置
通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)1 先决条件确保在...原创 2013-11-02 18:37:52 · 98 阅读 · 0 评论