hadoop
largetalk
技术宅,享受coding, python粉丝,热爱c, linux,想找个人一起去旅行
展开
-
为什么要用hadoop
<br /> 以前公司的数据日志是每天从生产数据库导出到数据服务器,再通过一个python脚本分析这些日志并存入mysql当中,这种方式在数据量小的情况下还没什么事,数据量一大,所需时间是几何增长。有段时间每天光apache log解压之后就有几十个G,虽然通过很多手段比如减少查询,减少单条数据插入,使用LOAD将数据导入数据库,但所需时间还是要很久。为了减少每天log分析的时间以及数据的稳定性,决定搭建一个hadoop系统,使用hadoop map/reduce来并行的处理log。<br /原创 2011-04-10 23:10:00 · 4707 阅读 · 0 评论 -
简单说说bigtable
这个题目很难,所以肯定说不好,但最近看了点这方面得东西,总得唠叨唠叨,留下点什么吧。话说GFS,bigtable这样得东西我也只是看看,工作中根本用不到,懂些名词,免得在别人吹牛B时只能在旁边呵呵傻笑,行,言归正传。bigtable首先是google提出来得,论文在此,给的注释就是“一个分布式结构化数据存储系统”,其实就一数据库,当然和我们平时得关系数据库是不一样得。首先看它的结构化,它的结构原创 2012-08-23 23:19:32 · 1347 阅读 · 0 评论 -
Zookeeper集群安装
Zookeeper集群安装前提:准备3台机器,ip分别是172.16.97.11172.16.97.12172.16.120.4下载zookeeper, http://zookeeper.apache.org/releases.html , 我下载的最新的3.4.5版下面操作在3台机器上都要做:sudo tar xvf zoo原创 2013-04-02 11:01:14 · 1488 阅读 · 0 评论 -
hadoop 伪分布式安装
这个也是个简单的步骤,备忘而已。1. java的安装http://www.devsniper.com/ubuntu-12-04-install-sun-jdk-6-7/Installing Sun JDK 6 on Ubuntu 12.04 / 12.10:Download the sun jdk 6 bin from here.Make the bin原创 2013-03-24 16:09:41 · 1686 阅读 · 0 评论