WF_事难懂-CSDN博客

原创 elasticsearch启动失败记录

1、使用root用户启动失败：OpenJDK 64-Bit Server VM warning: Option UseConcMarkSweepGC was deprecated in version 9.0 and will likely be removed in a future release.[2019-12-11T15:45:07,664][WARN ][o.e.b.Elas...

2019-12-11 15:53:29 556

转载 Sqoop框架学习

一、Sqoop基础：连接关系型数据库与Hadoop的桥梁1.1 Sqoop的基本概念　　　　Hadoop正成为企业用于大数据分析的最热门选择，但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程，云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流程，降低编写

2018-01-27 13:10:55 342

原创 Flume 与 Kafka整合案例

Flume集群和Kafka集群安装请参考其他文章A、启动Kafka集群bin/kafka-server-start.sh config/server.propertiesB、配置Flume集群，并启动Flume集群。bin/flume-ng agent -n a1 -c conf -f conf/fk.conf -Dflume.root.logger=DEBUG,conso

2018-01-26 19:04:14 385

原创 Flume使用

安装1、上传2、解压3、修改conf/flume-env.sh 文件中的JDK目录注意：JAVA_OPTS 配置如果我们传输文件过大报内存溢出时需要修改这个配置项4、验证安装是否成功 ./flume-ng version5、配置环境变量export FLUME_HOME=/home/apache-flume-1.6.0-bin主题安装细节请

2018-01-26 18:46:36 274

原创初识Kafka

一、Kafka简介Kafka是一个分布式的消息队列系统(Message Queue)。官网：https://kafka.apache.org/ kafka集群有多个Broker服务器组成，每个类型的消息被定义为topic。同一topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker上。消息生产者producer和消费者consumer可

2018-01-26 18:08:35 189

原创 Storm分布式RPC

分布式RPC分布式 RPC（DRPC）的设计目标是充分利用 Storm 的计算能力实现高密度的并行实时计算。Storm 接收若干个函数参数作为输入流，然后通过 DRPC 输出这些函数调用的结果。严格来说，DRPC 并不能算作是 Storm 的一个特性，因为它只是一种基于 Storm 原语 (Stream、Spout、Bolt、Topology) 实现的计算模式。虽然可以将 DRPC 从 S

2018-01-25 12:55:49 407

原创 Storm部署流程

2018-01-24 20:31:51 322

原创初识Storm

storm简介Storm 是 Twitter 开源的、分布式的、容错的实时计算系统Storm进程常驻内存Storm数据不经过磁盘，在内存中处理Storm 可以方便地在一个计算机集群中编写与扩展复杂的实时计算， Storm 之于实时处理，就好比 Hadoop 之于批处理。 Storm 保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。

2018-01-24 20:17:57 256

原创 Hbase伪分布式和完全分布式搭建步骤

hbase伪分布式以Linux文件系统存储使用自身、自带ZooKeeper1、基本环境 ip、网络、hosts列表、防火墙关闭...2、安装jdk 设置jdk环境变量3、下载安装包 4、解压 hbase环境变量设置5、修改hbase的配置文件a、conf/hbase-env.sh JAVA_HOME=b、co

2018-01-13 11:09:27 442

原创 Hbase(概念-数据模型-架构)

初识HbaseHadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）　　　　　　　　　　　　　　　　　　上图描述了

2018-01-12 18:36:29 537

原创 Hive优化

Hive 优化核心思想：把Hive SQL 当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行select仅查询本表字段where仅对本表字段做条件过滤Explain 显示执行计划EXPLAIN [EXTENDED] queryHive运行方式：本地模式集群模式本地模式开启本地模式：set hive

2018-01-12 13:01:56 316

转载 HBase框架学习（基础知识篇）

HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型，它存储的是松散型数据。一、HBase：BigTable的开源实现1.1 HBase出现的背景　　（1）随着数据规模越来越大，大量业务场景开始考虑数据存储水平扩展，使得存储服务可以增加/删除，而目

2018-01-12 11:08:12 468

原创 Hive部署和3种搭建模式

Hive部署　　以上，是参考《Hadoop海量数据处理技术详解与项目实战》Hive搭建模式1、local模式此模式连接到一个In-memory 的数据库Derby，一般用于Unit Test。这种方式是最简单的存储方式，只需要在hive-site.xml做如下配置便可 javax.jdo.option.Connectio

2018-01-11 19:47:53 2482

原创 HIVE分区和分桶

静态分区Hive 分区partition必须在表定义时指定对应的partition字段a、单分区建表语句：create table day_table (id int, content string) partitioned by (dt string);单分区表，按天分区，在表结构中存在id，content，dt三列。以dt为文件夹区分b、双分区建表语句：

2018-01-11 19:06:37 890 1

转载初识HIVE

Hive是构建在hadoop之上的数据仓库。不是用来增删改查的那种数据库，那是数据库。　　1）数据计算是MapReduce　　2）数据存储是HDFS 认识 Hive Hive 是基于 Hadoop 构建的一套数据仓库分析系统，它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提

2018-01-11 18:59:27 266

转载 Elasticsearch 编程API入门系列

说明：我这里是3台机器组建的es集群，然后编写其代码！　　192.168.80.10、192.168.80.11、192.168.80.12我这里，elasticsearch用的是2.4.X版本。API文档：https://www.elastic.co/guide/en/elasticsearch/client/java-api/2.4/java-docs.html

2018-01-06 16:03:50 1691

转载 Elasticsearch开发环境搭建（Eclipse\MyEclipse + Maven）

第一步：先，打开Eclipse/MyEclipse，File -> New -> Maven Project 　　第二步，如下所示，点击Next 　　第三步:选择quickstart这一项，点击Next 　　第四步：自行设置　　第五步：修改Jdk　　这里，省略，很简单　　第六步：配置pom.xml，当

2018-01-06 15:48:33 1145

转载 Elasticsearch-2.4.3的3节点安装（图文详解）（含 head、kopf、marvel、shield和watcher插件安装和使用）

我这里，以192.168.80.10（HadoopMaster）、192.168.80.11(HadoopSlave1)、192.168.80.12(HadoopSlave2)三台机器，来安装ES的3节点集群部署。ElasticSearch 规划-集群规划　　　　　　 ElasticSearch 规划-集群规划

2018-01-06 15:24:04 2552 1

转载 Elasticsearch之插件介绍及安装

ES站点插件（以网页形式展现）　　1、BigDesk Plugin (作者 Lukáš Vlček)　　　　简介：监控es状态的插件，推荐！【目前不支持2.x】　　2、Elasticsearch Head Plugin (作者 Ben Birch) （主要）　　　　简介：很方便对es进行各种操作的客户端。　　3、kopf Plugin(作者lmenezes) （主要）

2018-01-06 14:52:35 1293

转载 Storm介绍及与Spark Streaming对比

1 Storm介绍Storm是由Twitter开源的分布式、高容错的实时处理系统，它的出现令持续不断的流计算变得容易，弥补了Hadoop批处理所不能满足的实时要求。Storm常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。在Storm的集群里面有两种节点：控制节点(Master Node)和工作节点(Worker Node)。控制节点上面运行一个名为Nimbus的进

2018-01-04 12:09:26 649

转载 HBase框架学习（基础实践篇）

一、HBase的安装配置1.1 伪分布模式安装　　伪分布模式安装即在一台计算机上部署HBase的各个角色，HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。　　首先，准备好HBase的安装包，我这里使用的是HBase-0.94.7的版本，已经上传至百度网盘之中（URL：http://pan.baidu.com/s/1pJ3HTY7）

2017-12-26 10:34:02 274

转载 Flume框架学习

START：Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统，日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称，泛指文件、操作记录等许多数据。一、Flume基础理论1.1 常见的分布式日志收集系统　　Scribe是facebook开源的日志收集系统，在facebook内部已经得到大量的应用。 Chukwa 是一

2017-12-22 13:21:15 229

转载 kafka客户端编程API之生产者、消费者

Kafka客户端编程写kafka的客户端，有2个，生产者和消费者。 weekend110-kafka -> Build Path -> Configure Build Path 这里，我参考了网上的。http://download.

2017-12-20 14:10:30 360

转载 Kafka集群安装（3节点）

一、安装前准备　　1.1 示例机器二、 JDK7 安装1.1 下载地址　　下载地址： http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html [hadoop@hadoop1 ~]$ cd[hadoop@hadoop1

2017-12-20 11:37:01 2218

转载 Kafka简介、基本原理、执行流程与使用场景

一、简介Apache Kafka是分布式发布-订阅消息系统，在 kafka官网上对 kafka 的定义：一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。几种分布式系统消息系统的对比：推荐相

2017-12-20 09:47:27 222

转载全文搜索引擎 Elasticsearch 入门教程

全文搜索属于最常见的需求，开源的 Elasticsearch （以下简称 Elastic）是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。Elastic 的底层是开源库 Lucene。但是，你没法直接用 Lucene，必须自己写代码去调用它的接口。Elastic 是 Lucene 的封装

2017-12-18 18:12:31 226

转载 Elasticsearch-2.4.3的单节点安装

1、新建es安装目录[root@djt002 local]# mkdir elasticsearch[root@djt002 local]# lltotal 72drwxr-xr-x. 2 root root 4096 Sep 23 2011 bindrwxr-xr-x. 2 hadoop hadoop 4096 Feb 20 17:59 datadrwxr-xr-x

2017-12-18 13:54:05 327

转载 Elasticsearch5.0 安装问题集锦

elasticsearch 5.0 安装过程中遇到了一些问题，通过查找资料几乎都解决掉了，这里简单记录一下，供以后查阅参考，也希望可以帮助遇到同样问题的你。问题一：警告提示[2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to install syscall filter: java.lang.Unsuppor

2017-12-18 11:25:11 477

转载 RabbitMQ Exchange模式之Fanout

原文：http://blog.csdn.net/csethcrm/article/details/51671268任何发送到Fanout Exchange的消息都会被转发到与该Exchange绑定(Binding)的所有Queue上。1.这种模式需要提前将Exchange与Queue进行绑定，一个Exchange可以绑定多个Queue，一个Queue可以同多个Exc

2017-12-12 09:35:12 363

转载 RabbitMQ Exchange模式之Topic

原文：http://blog.csdn.net/csethcrm/article/details/51671268任何发送到Topic Exchange的消息都会被转发到所有关心RouteKey中指定话题的Queue上1. 这种模式需要RouteKey，要提前绑定Exchange与Queue。2. 如果Exchange没有发现能够与RouteKe

2017-12-11 16:46:19 167

转载 RabbitMQ Exchange模式之Direct

原文：http://blog.csdn.net/csethcrm/article/details/51671268RabbitMQ 默认的 Exchange;1. 消息传递时需要一个“RouteKey”，可以简单的理解为要发送到的队列名字。任何发送到Direct Exchange的消息都会被转发到RouteKey中指定的Queue。

2017-12-11 16:43:35 180

转载 Window下安装RabbitMQ服务器环境

原文：http://blog.csdn.net/csethcrm/article/details/51671268第一步：安装Erlang，点击下载(RabbitMQ是基于Erlang的，所以首先必须配置Erlang环境。) 版本：otp_win32_R15B01.exe 安装目录：C:\ProgramFiles\erl

2017-12-11 16:39:51 197

转载 RabbitMQ各种交换机类型Exchange Types介绍

最新版本的RabbitMQ有四种交换机类型，分别是Direct exchange、Fanout exchange、Topic exchange、Headers exchange。Direct Exchange – 处理路由键。需要将一个队列绑定到交换机上，要求该消息与一个特定的路由键完全匹配。这是一个完整的匹配。如果一个队列绑定到该交换机上要求路由键 “dog”，则只有被标记为

2017-12-11 16:22:13 346

转载 RabbitMQ （五）主题（Topic）

转载请标明出处：http://blog.csdn.net/lmj623565791/article/details/37706355上一篇博客中，我们进步改良了我们的日志系统。我们使用direct类型转发器，使得接收者有能力进行选择性的接收日志,，而非fanout那样，只能够无脑的转发。虽然使用direct类型改良了我们的系统，但是仍然存在一些局限性：它不能够基于多重条件进行路由选择。

2017-12-11 16:19:44 159

转载 RabbitMQ （四）路由选择 (Routing)

上一篇博客我们建立了一个简单的日志系统，我们能够广播日志消息给所有你的接收者。本篇博客我们准备给日志系统添加新的特性，让日志接收者能够订阅部分消息。例如，我们可以仅仅将致命的错误写入日志文件，然而仍然在控制面板上打印出所有的其他类型的日志消息。1、绑定（Bindings）在上一篇博客中我们已经使用过绑定。类似下面的代码：channel.queueBind(que

2017-12-11 16:16:39 163

转载 RabbitMQ （三）发布/订阅

转发请标明出处：http://blog.csdn.net/lmj623565791/article/details/37657225本系列教程主要来自于官网入门教程的翻译，然后自己进行了部分的修改与实验，内容仅供参考。上一篇博客中，我们实现了工作队列，并且我们的工作队列中的一个任务只会发给一个工作者，除非某个工作者未完成任务意外被杀死，会转发给另外的工作者。这篇博客中，我们会

2017-12-11 16:09:20 176

转载 RabbitMQ概念

消息服务器RabbitMQ1.RabbitMQ 详细介绍：1.1RabbitMQ是一个开源的AMQP实现，服务器端用Erlang语言编写，支持多种客户端，如：Python、Ruby、.NET、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等，支持AJAX。用于在分布式系统中存储转发消息，在易用性、扩展性、高可用性等方面表现不俗。1.2R

2017-12-11 15:57:04 221

转载 RabbitMQ （二）工作队列

转载请标明出处：http://blog.csdn.net/lmj623565791/article/details/37620057本系列教程主要来自于官网入门教程的翻译，然后自己进行了部分的修改与实验，内容仅供参考。上一篇博客中我们写了通过一个命名的队列发送和接收消息。这篇中我们将会创建一个工作队列用来在工作者（consumer）间分发耗时任务。工作队列的主要任务是：避免立刻

2017-12-11 15:50:01 151

转载 RabbitMQ 入门 Helloworld

转载请标明出处：http://blog.csdn.net/lmj623565791/article/details/37607165本系列教程主要来自于官网入门教程的翻译，然后自己进行了部分的修改与实验，内容仅供参考。“Hello world” of RabbitMQ1、Windows下RabbitMQ的安装下载Erlang，地址：http://www.erlang.org/d

2017-12-11 15:37:07 174

转载归并排序

要点归并排序是建立在归并操作上的一种有效的排序算法，该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。若将两个有序表合并成一个有序表，称为二路归并。归并排序的基本思想将待排序序列R[0...n-1]看成是n个长度为1的有序序列，将相邻的有序表成对归并，得到n/2个

2017-12-08 10:15:04 300

空空如也

空空如也