青蓝

做个好程序员

极客前程大数据---HIVE分桶,分区详解

hive 分桶 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。 对于hive中每一个表、分区都可以进一步进行分桶。 由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。 适用场景: 数据抽样( sampling )、map-join   开启支持分桶 set hiv...

2019-01-03 17:02:13

阅读数 59

评论数 0

极客前程大数据---HIVE简介简装

Hive 产生背景 非java编程者对hdfs的数据做mapreduce操作 Hive hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类S...

2018-12-25 10:27:02

阅读数 73

评论数 0

极客前程大数据---hbase性能优化总结

2018-12-13 09:51:07

阅读数 40

评论数 0

极客前程大数据---storm java API

package com.sxt.storm.simple;   import backtype.storm.Config; import backtype.storm.LocalCluster; import backtype.storm.topology.TopologyBuilder;...

2018-12-12 15:21:49

阅读数 55

评论数 0

极客前程大数据--storm集群搭建

一、环境要求 JDK 1.6+ java -version Python 2.6.6+ python -V   ZooKeeper3.4.5+ storm 0.9.4+     二、单机模式 上传解压 $ tar xf apache-storm-0.9.4.tar.gz ...

2018-12-12 10:05:46

阅读数 62

评论数 0

极客前程大数据--storm简介

简介 •Storm是个实时的、分布式以及具备高容错的计算系统 –Storm进程常驻内存 –Storm数据不经过磁盘,在内存中处理 •Twitter开源的分布式实时大数据处理框架,最早开源于github •2013年,Storm进入Apache社区进行孵化 •2014年9月,晋级成为了A...

2018-12-11 15:32:31

阅读数 201

评论数 0

极客前程大数据--flume详解及安装部署

Flunm   Netcat 监听本机端口 可以提供telnet Avro rpc 可以监听RPC请求的数据 主机 端口 Exec 后边接linux命令 tail –f  监听文件 Spooldir 监控目录变化 目录变化读取目录中文件 A1 指定 agent的别名 # ...

2018-12-11 08:43:13

阅读数 92

评论数 0

极客前程大数据--详解Kafka

Kafka文档 一、Kafka简介 Kafka是一个分布式的消息队列系统(Message Queue)。 官网:https://kafka.apache.org/ kafka集群有多个Broker服务器组成,每个类型的消息被定义为topic。 同一topic内部的消息按照一定的key...

2018-12-10 17:48:04

阅读数 142

评论数 0

极客前程大数据--Mapreduce 2.o 详细搭建

  单点yarn 配置 etc/hadoop/mapred-site.xml: 这个让map reduce 和yarn集成 <configuration>     <property>       ...

2018-12-09 23:08:37

阅读数 50

评论数 0

极客前程大数据--HBASE详细搭建

    hbase 伪分布式搭建 修改主机名 安装JDK,修改环境变量     下载hbase安装包。解压 加入环境变量 修改hbase-env.sh 中的java_home变量 修改hbase-site.xml 用自带的zookeeper &am...

2018-12-09 11:20:37

阅读数 106

评论数 0

极客前程大数据CDH搭建详细教程

CDH简介、安装及使用 主要内容 1、CDH简介 2、CDH安装 3、Cloudera Manager部署CDH 4、Cloudera Manager使用 5、使用CM添加服务   一、大数据简介及生态介绍 大数据就是对海量数据的采集、分布式存储、分布式处理计算及在海量数据上挖掘...

2018-12-04 11:04:14

阅读数 186

评论数 0

极客前程大数据--HDFS集群搭建

Hadoop伪分布式搭建 1、操作系统环境准备 Java环境 免秘钥 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin Ssh node01—生成.ssh文件 ssh-keygen---生成公钥秘钥 ...

2018-07-12 19:32:24

阅读数 988

评论数 0

极客前程大数据--HDFS简介

一、HDFS简介 HDFS是分布式文件管理系统,盛放文件的系统。 二、HDFS设计思想 文件元数据MetaData,文件数据 元数据 数据本身 (主)NameNode节点保存文件元数据:单节点   posix (从)DataNode节点保存文件Block数据:多节点 DataNod...

2018-07-12 17:48:21

阅读数 271

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭