Big Data
文章平均质量分 83
LadyFeline
这个作者很懒,什么都没留下…
展开
-
Spark 初涉
个人觉得看到的比较好的解释spark的文章,今天基本也就是做了些里面的内容尝试spark了http://www.ib*m.com/developerworks/cn/opensource/os-spark/http://www.ib*m.com/developerworks/cn/linux/l-sparkdataanalysis/原创 2014-05-26 23:28:19 · 446 阅读 · 0 评论 -
Hadoop 2.4.0 伪分布式环境搭建
搭建环境:jdk1.7.0ubuntu 14.0.4hadoop 2.4.01. 安装ssh $ sudo apt-get install ssh $ sudo apt-get install rsyncabout rsync:可以镜像保存整个目录树和文件系统。可以很容易做到保持原来文件的权限、时间、软硬链接等等。无须特殊权限即可安原创 2014-07-21 17:20:22 · 690 阅读 · 0 评论 -
Zookeeper 3.4.6 试水 & Hbase 0.98.3 for Hadoop 2 单节点配置
环境:jdk1.7.0Ubuntu 14.0.4Hadoop 2.4.0Hbase原创 2014-07-22 18:59:32 · 654 阅读 · 0 评论 -
Hbase 0.98.3 for Hadoop2 II(Based on Hdfs)
运行环境:jdk1.7.0Ubuntu 14.0.4Hadoop 2.4.0Hbase 0.98.3 for Hadoop2Zookeeper 3.4.6登录为root帐号。"Apache HBase uses the same configuration system as Apache Hadoop""When running in distribu原创 2014-07-23 18:22:37 · 568 阅读 · 0 评论 -
2014.7.10 Hive Hdfs整合尝试
由于实验室的学长已经配好了Hive,所以基本上都原创 2014-07-10 17:02:23 · 459 阅读 · 0 评论 -
Dremel: Interactive Analysis of Web-Scale Datasets 1~6节算法思想部分翻译
Dremel是一个具有可扩展性和交互性,专用于分析只读嵌套数据的查询系统。它本身对多级操作数和柱状数据布局的融合使它得以在秒级的反应时间内对有万亿数量级行记录的表进行集成语句查询。这个系统在谷歌包含数以千计的CPU和PT级的数据量,并有着上千名使用者。这篇论文将会介绍Dremel的体系结构以及其实现,并阐述它如何实现基于MapReduce的计算。本文将呈现一种全新的嵌套式数据柱状存储方式并通过一个基于几千节点的样例系统实验分析性能。翻译 2014-08-08 12:49:46 · 1601 阅读 · 0 评论 -
The striping and assembly algorithms from the Dremel paper( from github, project parquet-mr )
为了理解Dremel论文中给出的案例,笔者觉得对定义级别和重复级别这两个概念进行注释加强理解是有必要的,具体可以看Dremel那篇论文的图2和图3。柱状数据的嵌套模式:论文使用了以下的模型:message Document { required int64 DocId; optional group Links {翻译 2014-08-11 14:03:50 · 1642 阅读 · 0 评论