安装nginx和ganglia

1、什么是nginx 2、在contos上安装nginx 1. a)先安装G++ $>sudo yum install gcc b)安装pcre $>sudo yum install pcre pcre-devel openssl open...

2018-07-22 09:21:49

阅读数:83

评论数:0

Hadoop————Storm强化

1、storm的特点 storm是一个免费、开源、分布式、实时计算系统。吞吐量高,每秒每节点能达到百万元组。 storm是跨语言、可伸缩的,具有低延迟(秒级/分钟级)、容错的特点。 storm与hadoop的对比 storm hadoop -----------...

2018-06-28 21:07:43

阅读数:249

评论数:0

Hadoop————Kafka强化

1、kafka的特点 分布式流处理平台。在系统之间构建实时数据流管道。以topic分类对记录进行存储,每个记录包含key-value+timestamp每秒钟百万消息吞吐量。 producer //消息生产者 consumer //消息消费者 con...

2018-06-25 20:39:00

阅读数:287

评论数:0

Hadoop————flume强化

1、flume的特点 收集、移动、聚合大量日志数据的服务。 基于流数据的架构,用于在线日志分析。 基于事件。在生产和消费者之间启动协调作用。提供了事务保证,确保消息一定被分发。Source 多种、Sink多种。可以有多级跃点。 Source,接受数据,类型有多种。 Chann...

2018-06-25 20:07:41

阅读数:77

评论数:0

Hadoop————Hbase强化

1、Hbase的特点 可用作hadoop数据库,提供分布式可伸缩大型数据存储。用户能随机、实时读写数据。存储十亿行 x 百万列数量级数据。是版本化、非关系型数据库。面向列存储,table是按row排序。 Feature ---------------- Linear and mod...

2018-06-25 19:32:46

阅读数:337

评论数:0

Hadoop————Zookeeper强化

1、Zookeeper的作用 1.管理大量主机的协同服务。 2.分布式应用,实现分布式读写技术。 3.zk提供的服务: Naming service //按名称区分集群中的节点. Configuration management //对加入节点的最新化处理。...

2018-06-22 21:43:13

阅读数:173

评论数:0

Hadoop————串行化

1、什么是串行化 串行化简而言之就是将对象转成字节流(二进制格式)存放在磁盘上或用于传输,便于减小存储空间、网络传输,提高效率。在分布式编程中显得尤为重要,如果不进行串行化,则传输效率将得到限制。 2、google的protobuf 1.下载google protobuf. protoc-...

2018-06-22 20:50:31

阅读数:85

评论数:0

Hadoop————与MySql的交互以及Hive加强

1、与MySql的交互 数据仓库 OLAP //online analyze process,在线分析处理,延迟性高。 数据库 OLTP //online transaction process在线事务处理,实时性好。 1.1 数据库的连接 ...

2018-06-21 21:49:03

阅读数:114

评论数:0

Hadoop————全排序和二次排序

1、多输入 使用多个输入作为job的输入来源,也就是在InputFormat 前把添加各种不同的序列源里面的方法也就是 addInputPath等等,map也可以在这个流程中套进来。 combiner:合成,map的reduce(聚合) 在分区内聚合,分区后产生数据后在分区内聚合(每个分...

2018-06-15 10:19:28

阅读数:395

评论数:0

Hadoop——HDFS以及MapReduce的一些总结

1、HDFS API简单操作文件 package cn.ctgu.hdfs; import java.io.IOException; import java.io.InputStream; import java.net.URL; import java.net.URLConnection...

2018-06-12 10:23:42

阅读数:138

评论数:1

Hadoop一些常用的命令以及DataNode、Yarn节点服役、退役

1、Hadoop常用命令 hadoop verion //版本 hadoop fs //文件系统客户端. hadoop jar // hadoop classpath //查看hadoop类路径 hadoop checknative //检查压缩库本...

2018-06-08 14:46:24

阅读数:694

评论数:0

Hadoop(九)————Kafka

1、什么是Kafka 1、kafka是一个分布式的消息缓存系统 2、kafka集群中的服务器都叫做broker 3、kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接 4、kafka中不同业...

2018-05-03 14:29:15

阅读数:291

评论数:0

Hadoop(八)————Storm

1、什么是Storm 2、Storm的一些概念 3、Storm的安装 1、安装一个zookeeper集群 2、上传storm的安装包,解压 3、修改配置文件storm.yaml #所使用...

2018-05-02 21:34:08

阅读数:45

评论数:0

Hadoop(七)————HBase

1、什么是HBase 2、HBase集群的搭建 2.1 节点规划 2.2 集群搭建 1.上传hbase安装包 2.解压 3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml...

2018-05-02 20:19:00

阅读数:40

评论数:0

Hadoop(六)————Hive

1、什么是Hive 2、Hive的安装 Hive只需要在一个节点上安装即可,因为它不是一个集群。 2.1 上传tar包 2.2 解压 tar -zxvf hive-0.9.0.tar.gz -C /app/ 2.3 安装hive 运行hive发现内置默认的metastor...

2018-05-02 14:54:20

阅读数:51

评论数:0

Hadoop(五)————Zookeeper以及HA(高可用全分布式集群搭建)

1、什么是Zookeeper Broadcast模式极其类似于分布式事务中的2pc(two-phrase commit 两阶段提交):即leader提起一个决议,由followers进行投票,leader对投票结果进行计算决定是否通过该决议,如果通过执行该决议(事务),否则什么也...

2018-05-01 21:35:06

阅读数:66

评论数:0

Hadoop(四)————MapReduce代码实现一些基本操作

1、计算总流量 需求:在一个超大文件中(如下图)分别统计出每个电话号码的上行流量、下行流量以及流量总和并输出。 FlowBean.java package cn.ctgu.hadoop.mr.bean; import java.io.DataInput; import java.i...

2018-04-29 14:24:37

阅读数:87

评论数:0

Hadoop(三)————HDFS以及MapReduce、YARN源码分析

1、HDFS源码分析 1.1HDFS基本操作代码示例 package cn.ctgu.hadoop; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutp...

2018-04-28 15:23:15

阅读数:52

评论数:0

Hadoop(二)————集群的搭建

1、条件准备 1.1 装Linux系统(CentOS) 1.2 配置网络连接 采用NAT模式设置静态IP,防止每次开机时IP地址变化,具体设置方式如: 1.3 VMware几种网络配置方式详解 这里写链接内容 1.4 Linux环...

2018-04-28 13:51:03

阅读数:101

评论数:0

Hadoop(一)

1、Hadoop是什么 Hadoop主要是由Doung Cutting和Mike Cafarella受到Google的两篇论文(GFS、MapReduce)的启发,采用Java编写的,用于实现海量数据存储和分析,由Apache基金会支持的一个处理大型数据的开源框架。Hadoop框架应用工...

2018-04-27 11:13:19

阅读数:105

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭