elasticsearch启动失败记录 1、使用root用户启动失败:OpenJDK 64-Bit Server VM warning: Option UseConcMarkSweepGC was deprecated in version 9.0 and will likely be removed in a future release.[2019-12-11T15:45:07,664][WARN ][o.e.b.Elas...
Sqoop框架学习 一、Sqoop基础:连接关系型数据库与Hadoop的桥梁1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程,云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流程,降低编写
Flume 与 Kafka整合案例 Flume集群和Kafka集群安装请参考其他文章A、启动Kafka集群bin/kafka-server-start.sh config/server.propertiesB、配置Flume集群,并启动Flume集群。bin/flume-ng agent -n a1 -c conf -f conf/fk.conf -Dflume.root.logger=DEBUG,conso
Flume使用 安装1、上传2、解压3、修改conf/flume-env.sh 文件中的JDK目录 注意:JAVA_OPTS 配置 如果我们传输文件过大 报内存溢出时 需要修改这个配置项4、验证安装是否成功 ./flume-ng version5、配置环境变量export FLUME_HOME=/home/apache-flume-1.6.0-bin主题安装细节请
初识Kafka 一、Kafka简介Kafka是一个分布式的消息队列系统(Message Queue)。官网:https://kafka.apache.org/ kafka集群有多个Broker服务器组成,每个类型的消息被定义为topic。同一topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker上。消息生产者producer和消费者consumer可
Storm分布式RPC 分布式RPC分布式 RPC(DRPC)的设计目标是充分利用 Storm 的计算能力实现高密度的并行实时计算。Storm 接收若干个函数参数作为输入流,然后通过 DRPC 输出这些函数调用的结果。严格来说,DRPC 并不能算作是 Storm 的一个特性,因为它只是一种基于 Storm 原语 (Stream、Spout、Bolt、Topology) 实现的计算模式。虽然可以将 DRPC 从 S
初识Storm storm简介Storm 是 Twitter 开源的、分布式的、容错的实时计算系统Storm进程常驻内存Storm数据不经过磁盘,在内存中处理Storm 可以方便地在一个计算机集群中编写与扩展复杂的实时计算, Storm 之于实时处理,就好比 Hadoop 之于批处理。 Storm 保证每个消息都会得到处理,而且它很快——在一个小集群中,每秒可以处理数以百万计的消息。
Hbase伪分布式和完全分布式搭建步骤 hbase伪分布式以Linux文件系统 存储使用自身、自带ZooKeeper1、基本环境 ip、网络、hosts列表、防火墙关闭...2、安装jdk 设置jdk环境变量3、下载安装包 4、解压 hbase环境变量设置5、修改hbase的配置文件a、conf/hbase-env.sh JAVA_HOME=b、co
Hbase(概念-数据模型-架构) 初识HbaseHadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库) 上图描述了
Hive优化 Hive 优化核心思想:把Hive SQL 当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行select仅查询本表字段where仅对本表字段做条件过滤Explain 显示执行计划EXPLAIN [EXTENDED] queryHive运行方式:本地模式集群模式本地模式开启本地模式:set hive
HBase框架学习(基础知识篇) HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据。一、HBase:BigTable的开源实现1.1 HBase出现的背景 (1)随着数据规模越来越大,大量业务场景开始考虑数据存储水平扩展,使得存储服务可以增加/删除,而目
Hive部署和3种搭建模式 Hive部署 以上,是参考《Hadoop海量数据处理 技术详解与项目实战》Hive搭建模式1、local模式此模式连接到一个In-memory 的数据库Derby,一般用于Unit Test。这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 javax.jdo.option.Connectio
HIVE分区和分桶 静态分区Hive 分区partition必须在表定义时指定对应的partition字段a、单分区建表语句:create table day_table (id int, content string) partitioned by (dt string);单分区表,按天分区,在表结构中存在id,content,dt三列。以dt为文件夹区分b、 双分区建表语句:
初识HIVE Hive是构建在hadoop之上的数据仓库。不是用来增删改查的那种数据库,那是数据库。 1)数据计算是MapReduce 2)数据存储是HDFS 认识 Hive Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提
Elasticsearch 编程API入门系列 说明:我这里是3台机器组建的es集群,然后编写其代码! 192.168.80.10、192.168.80.11、192.168.80.12我这里,elasticsearch用的是2.4.X版本。API文档:https://www.elastic.co/guide/en/elasticsearch/client/java-api/2.4/java-docs.html
Elasticsearch开发环境搭建(Eclipse\MyEclipse + Maven) 第一步:先,打开Eclipse/MyEclipse,File -> New -> Maven Project 第二步,如下所示,点击Next 第三步:选择quickstart这一项,点击Next 第四步:自行设置 第五步:修改Jdk 这里,省略,很简单 第六步:配置pom.xml,当
Elasticsearch-2.4.3的3节点安装(图文详解)(含 head、kopf、marvel、shield和watcher插件安装和使用) 我这里,以192.168.80.10(HadoopMaster)、192.168.80.11(HadoopSlave1)、192.168.80.12(HadoopSlave2)三台机器,来安装ES的3节点集群部署。ElasticSearch 规划-集群规划 ElasticSearch 规划-集群规划
Elasticsearch之插件介绍及安装 ES站点插件(以网页形式展现) 1、BigDesk Plugin (作者 Lukáš Vlček) 简介:监控es状态的插件,推荐!【目前不支持2.x】 2、Elasticsearch Head Plugin (作者 Ben Birch) (主要) 简介:很方便对es进行各种操作的客户端。 3、kopf Plugin(作者lmenezes) (主要)