云计算与大数据
文章平均质量分 81
永不言弃01
博客迁移:saixia.me
展开
-
Hadoop myeclipse和eclipse开发环境的配置
Hadoop myeclipse和eclipse开发环境的配置原创 2015-01-01 21:30:59 · 2947 阅读 · 0 评论 -
hadoop伪分布平台的搭建
Hadoop单机模式和伪分布模式的搭建linux下Java(JDK)安装、Hadoop按照与配置。原创 2014-11-22 21:13:32 · 1146 阅读 · 0 评论 -
Bloom filter(布隆过滤器)概念与原理
在大数据与云计算发展的时代,我们经常会碰到这样的问题。我们是否能高效的判断一个用户是否访问过某网站的主页(每天访问量上亿)或者需要统计网站的pv、uv。最直接的想法是将所有的访问者存起来,然后每次用户访问的时候与之前集合进行比较。不管是将访问信息存在内存(或数据库)都会对服务器造成非常大的压力。那是否存在一种方式,容忍一定的错误率,高效(计算复杂度、空间复杂度)的实现访问量信息的跟踪、统计呢?接下来介绍的布隆过滤器(Bloom Filter)就可以满足当前的使用场景(注释:基数计数法同样能满足pv、uv的统原创 2016-05-26 00:39:58 · 21829 阅读 · 4 评论 -
数据系统架构——Lambda architecture(Lambda架构)
传统系统的问题“我们正在从IT时代走向DT时代(数据时代)。IT和DT之间,不仅仅是技术的变革,更是思想意识的变革,IT主要是为自我服务,用来更好地自我控制和管理,DT则是激活生产力,让别人活得比你好”——阿里巴巴董事局主席马云。数据量从M的级别到G的级别到现在T的级、P的级别。数据量的变化数据管理系统(DBMS)和数仓系统(DW)也在悄然的变化着。原创 2016-06-28 20:33:36 · 34214 阅读 · 8 评论