大数据
文章平均质量分 58
dellme99
这个作者很懒,什么都没留下…
展开
-
BLOOM filter 布隆过滤器 去重算法首选
去重一般用hash。Hash存在一个冲突(碰撞)的问题,用同一个Hash得到的两个URL的值有可能相同。为了减少冲突,我们可以多引入几个Hash,如果通过其中的一个Hash值我们得出某元素不在集合中,那么该元素肯定不在集合中。只有在所有的Hash函数告诉我们该元素在集合中时,才能确定该元素存在于集合中。这便是Bloom-Filter的基本思想。http://blog.csd转载 2013-11-07 17:27:31 · 1578 阅读 · 0 评论 -
Erasure code 代替RAID的案例
Erasure code转载 2014-07-15 17:41:08 · 1297 阅读 · 0 评论 -
HBASE cassandra 本质上其实都是KEY -VALUE(非关系型) 的行式存储数据库 而列式数据库可以是关系型的。
笔者曾经对 hbase cassandra, bigtable等说成是 列式存储也是疑惑过很久。 1. 列式存储数据库(Column-oriented database)一般也叫做列式数据库。 你可以看下具体的定义,而且列式存储大部分是关系型数据库,支持SQL。有名的例子有:Sybase IQ, C-Store,Vertica, VectorWise, MonetDB,原创 2014-03-30 20:48:53 · 3064 阅读 · 0 评论 -
数据分区汇总
http://blog.csdn.net/yuzhic/article/details/1622786转载 2014-03-31 18:37:33 · 625 阅读 · 0 评论 -
商业智能遇到大数据
时下大数据大热,而且这股热潮可谓来势汹汹。在相关厂商、投资方以及众多第三方机构的鼓动下,越来越多的用户摩拳擦掌、跃跃欲试。 虽然眼下各家关于大数据的宣传重点各有不同,但描绘的前景基本相同,即通过数据探查、数据分析及数据展示等相关技术,让我们可以从海量数据中很快找到新的商业机会,或者做出更正确的决策。 对IT业发展历史有些了解者对这一情形并不陌生,当年商业智能也是同样炙手可热,而且商业智转载 2014-02-18 14:25:17 · 1041 阅读 · 0 评论 -
大数据开源框架之二:Berkeley Data Analytics Stack(tachyon, spark, shark, spark streaming)
1. 快速理解http://blog.csdn.net/colorant/article/details/8255958http://www.ninqing.net/?p=242. 总体介绍,英文版http://wenku.it168.com/d_001311298.shtml。http://wenku.it168.com/d_001004263.shtml原创 2013-12-02 16:40:36 · 2654 阅读 · 0 评论 -
跨机房的hadoop集群
http://www.cppblog.com/whspecial/archive/2013/10/27/203940.html首先需要说明一点,跨机房hadoop可能应用场景并不是很多,国内像BAT这种巨头也许需要,但是大部分的中小公司也许并不需要这个,也许这是个屠龙之技,呵呵。把这个问题分三段来讲,第一段是问题出现的背景,第二段是解决该问题的难点,第三段是最终的解决方转载 2014-02-14 10:30:25 · 3740 阅读 · 0 评论 -
是大数据还是商业智能?是大数据还是普通的数据分析?甚至只是报表分析而已? 别把数据就说成大数据
你的是商业智能还是大数据 ? 你的是数据分析还是大数据? 你的是统计分析、报表而已还是大数据?原来的OLAP都改名成大数据了 ?原来的数据仓库都改名成大数据了 ?原创 2014-01-02 22:57:27 · 1582 阅读 · 0 评论 -
大数据相关资料 杂七杂八
http://yanbohappy.sinaapp.com///大数据工程人员知识图谱http://yanbohappy.sinaapp.com/?p=418原创 2013-12-03 21:41:30 · 928 阅读 · 0 评论 -
RAID的掘墓人和HADOOP/GFS 三备份的替代方案:Erasure code(从Reed Solomon code到LRC/XOR)
//改良or革命!传统RAID未来发展三大方向 , Erasure codehttp://storage.it168.com/a2010/0604/1004/000001004383_all.shtml//什么是Erasure codehttp://en.wikipedia.org/wiki/Erasure_code//HDFS-RAID使用Erasure原创 2013-12-03 21:27:11 · 1433 阅读 · 0 评论 -
大数据的具体特点
草稿网页、日志、数据仓库、广告数据、UGC(BBS, 微博,评论等).结构化与非结构化并存,系统数据对数据一致性要求强弱程度不同,用户对数据的访问行为存在不确定性,即在毫无征兆的情况下,对某些信息进行突发式访问等原创 2013-12-09 13:34:08 · 811 阅读 · 0 评论 -
非结构化数据库性能文章汇总
1. MongoDB 性能http://wenku.baidu.com/link?url=NwPSRK9_g9W5bwwVrth0SLVKOaV9SeU6Wscj0BeTnbpEMqs_5eeoVllshNzpvnSwvizmXnm-T8jA5OGdneOqUREaGc0NL4QEk0twh3B9Mu7http://wenku.baidu.com/link?url=wospn95x原创 2013-12-01 18:33:05 · 782 阅读 · 0 评论 -
分布式中 CAP BASE ACID 理解
概念理解(CAP,BASE, ACID), 一致性算法,CAP不同组合,一致性理解原创 2013-11-11 17:33:03 · 6046 阅读 · 0 评论 -
Erasure Code相关
http://blog.163.com/yandong_8212/blog/static/13215391420143281143547/原创 2014-10-28 17:06:46 · 848 阅读 · 0 评论