何谓海量数据处理

何谓海量数据处理? 所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。 那解决办法呢?针对时间,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/bit...

2014-07-18 15:12:31

阅读数:383

评论数:0

学习总结二十三:深入学习hbase数据库

1.hbase的region块大小,是由hbase-site.xml文件中的

2014-07-09 16:21:00

阅读数:498

评论数:0

学习总结二十二:flume是分布式的日志收集系统

1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。 2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。 3.agent里面包含3个核心组件:source、channel、sink。 3.1 source组件是专用于收集日志的,...

2014-07-07 12:43:56

阅读数:441

评论数:0

学习总结二十一:Hbase集群搭建

1.hbase的机群搭建过程(在原来的hadoop0上的hbase伪分布基础上进行搭建) 1.1 集群结构,主节点(hmaster)是hadoop0,从节点(region server)是hadoop1和hadoop2 1.2 修改hadoop0上的hbase的几个文件     (1)修改h...

2014-07-06 19:25:38

阅读数:347

评论数:0

学习总结十九:Hbase数据库shell操作

创建表 create '表名称', '列族名称1','列族名称2','列族名称N' 添加记录       put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count  '表名称' 删除记录 delete  '表名'...

2014-07-06 16:21:13

阅读数:255

评论数:0

学习总结十八:Hbase数据库介绍

Hbase是Hadoop中的数据库,属于NoSql数据库。

2014-07-06 15:11:41

阅读数:341

评论数:0

学习总结十七:ZooKeeper集群搭建

1.ZooKeeper 1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。 (传输的数据要保证2M以下,各服务器时间也要保持一致) 2.如何搭建ZooKeeper服务器集群 2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。 2.2 在hadoop...

2014-07-05 22:48:30

阅读数:339

评论数:0

学习总结十六:hadoop安全模式

hadoop安全模式几种状态

2014-07-05 19:09:25

阅读数:345

评论数:0

学习总结四:hadoop集群动态增加新节点及下架一个节点

安全模式出现的场合:i

2014-07-05 18:20:50

阅读数:488

评论数:0

学习总结五:Hadoop中CombineFileInputFormat详解

本文转载自:http://blog.csdn.net/wawmg/article/details/17095125 在MR实践中,会有很多小文件,单个文件产生一个mapper,资源比较浪费,后续没有reduce逻辑的话,会产生很多小文件,文件数量暴涨,对后续的hive job产生影响。 ...

2014-07-03 16:25:35

阅读数:442

评论数:0

学习总结六:hadoop的集群安装

1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode 从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker 1.2 各节点重新产生ssh加密文...

2014-07-03 12:01:28

阅读数:320

评论数:0

学习总结七:Hadoop的数据类型

1.Hadoop的数据类型要求必须实现Writable接口。 2.java基本类型与Hadoop常见基本类型的对照 Long LongWritable Integer IntWritable Boolean BooleanWritable String Text 问:jav...

2014-07-03 11:57:28

阅读数:269

评论数:0

学习总结八:在eclipse中的写的代码如何提交作业到JobTracker中的?

问:在eclipse中的写的代码如何提交作业到JobTracker中的哪? 答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法    connect(); info = jobClient.submitJobInternal(conf)...

2014-07-03 11:56:21

阅读数:305

评论数:0

学习总结九:hdfs中的RPC

1.RPC 1.1 RPC (remote procedure call)远程过程调用. 远程过程指的是不是同一个进程。 1.2 RPC至少有两个过程。调用方(client),被调用方(server)。 1.3 client主动发起请求,调用指定ip和port的server中的方法,把调用...

2014-07-03 11:54:00

阅读数:358

评论数:0

学习总结十:hadoop的伪分布安装

1.hadoop的伪分布安装 1.1 设置ip地址 执行命令 service network restart 验证: ifconfig 1.2 关闭防火墙 执行命令 service iptables stop 验证: service iptables status 1.3 关闭防火墙...

2014-07-03 11:50:57

阅读数:344

评论数:0

学习总结十一:linux常用命令

1.通过远程工具登陆到linux后,所在的位置是当前登录用户的家目录(home directory)。 2.家目录的符号用~表示。 3.linux的文件系统是一个树结构。   linux文件系统的树根成为根目录,使用符号"/"表示。   linux文件系统中使用符号&q...

2014-07-03 11:49:15

阅读数:224

评论数:0

学习总结十五:分布式实时计算系统storm简介

在大数据处理上,大家可能对hadoop中的mapredace

2014-06-29 18:39:02

阅读数:571

评论数:0

学习总结三:搭建ZooKeeper服务器集群

zookeeper原理图

2014-06-29 16:11:27

阅读数:397

评论数:0

学习总结十二:Hadoop学习之SecondaryNameNode

在启动Hadoop时,NameNode节点上会默认启动一个SecondaryNameNode进程,使用JSP命令可以查看到。SecondaryNameNode光从字面上理解,很容易让人认为是NameNode的热备进程。其实不是,SecondaryNameNode是HDFS架构中的一个组成部分。它并...

2014-06-29 15:16:32

阅读数:368

评论数:0

学习总结一:hdfs fs常用命令使用

-help [cmd] //显示命令的帮助信息 -ls(r) //显示当前目录下所有文件 -du(s) //显示目录中所有文件大小 -count[-q] //显示目录中文件数量 -mv //移动多个文件到目标目录 -cp //复制多个文件到目标目录 -rm(r) //删除...

2014-06-29 14:47:36

阅读数:1169

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭