波波happy-CSDN博客

原创 CentOS Hbase-1.2.0 安装配置

本篇介绍在四个节点的集群中安装Hbase，Hbase依赖于zookeeper,Hbase的安装包内自带zookeeper，本篇将配置使用单独安装的zookeeper。最后启动时遇到Master is initializing、error telling master we are up的异常，通过修改hosts文件得以解决。安装环境虚拟机：VMware Workstation 12 Pl...

2018-09-17 11:02:07 804 2

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于...

2018-09-14 16:21:01 4224 1

原创 storm1.1.1安装

1.下载 apache-storm-1.1.1.tar.gzhttp://www.apache.org/dyn/closer.lua/storm/apache-storm-1.1.1/apache-storm-1.1.1.tar.gz2.上传到soft目录下,解压,修改名称为stormtar zxf apache-storm-1.1.1.tar.gzmv apache-st...

2018-09-14 15:42:50 726

原创 spark 2.1.1安装（hadoop 2.6.0）

　spark分布式搭建方式大致分为三种：standalone、yarn、mesos。三种分类的区别这里就不一一介绍了，不明白可自行了解。standalone是官方提供的一种集群方式，企业一般不使用。yarn集群方式在企业中应用是比较广泛的，这里也是介绍yarn的集群安装方式。mesos安装适合于超大型集群。...

2018-09-13 16:52:27 1591

原创 Linux中profile、bashrc、bash_profile区别

~/.bash_profile、~/.bashrc、和~/.bash_logout1.上面这三个文件是bash shell的用户环境配置文件，位于用户的主目录下。其中.bash_profile是最重要的一个配置文件，它在用户每次登录系统时被读取，里面的所有命令都会被bash执行。 2..bashrc文件会在bash shell调用另一个bash shell时读取，也就是在shell中再键入b...

2018-09-12 10:30:27 244

原创 cdh5.7.1集群安装

系统环境1.设置主机名vi /etc/sysconfig/network #编辑配置文件HOSTNAME= cdh1reboot重启系统 2.、Selinux 由于Selinux是基于角色的访问控制策略设置，由于设置非常繁琐。所以如无必要关闭Selinux即可 root用户下进行操作。a.设置Selinux。执行如下命令可实时将Selinux修改为permissiv...

2018-09-11 19:48:22 581

原创 ntp时间同步服务

host1上安装ntp组件yum -y install ntphost1上调整时间这一步为确保host1上的时间与本地时间保持一致，如果可以联网的情况下执行命令ntpdate 0.centos.pool.ntp.org #该网址为centos网络上的时间同步服务器一般情况下，我们的集群为内网环境，无法和外网进行联网同步之间，那么手动执行命令调整时间date -s...

2018-09-10 16:10:41 426

翻译 storm tridentAPI

“Stream”是Trident中的核心数据模型，它被当做一系列的batch来处理。在Storm集群的节点之间，一个stream被划分成很多partition（分区），对流的操作（operation）是在每个partition上并行进行的。注：①“Stream”是Trident中的核心数据模型：有些地方也说是TridentTuple，没有个标准的说法。②一个stream被划分成很多pa...

2018-06-06 11:24:52 156

翻译 storm trident

Trident是在storm基础上，一个以实时计算为目标的高度抽象。它在提供处理大吞吐量数据能力（每秒百万次消息）的同时，也提供了低延时分布式查询和有状态流式处理的能力。如果你对Pig和Cascading这种高级批处理工具很了解的话，那么应该很容易理解Trident，因为他们之间很多的概念和思想都是类似的。Tident提供了 joins, aggregations, grouping, fun...

2018-06-06 11:00:40 609

翻译 storm transactional

Transactional topology是一个0.9版本中被弃用的原语，取而代之的是trident框架。Storm通过保证每个tuple至少被处理一次来提供可靠的数据处理。关于这一点最常被问到的问题就是“既然tuple可能会被再次发送(replay), 那么我们怎么在storm上面做统计个数之类的事情呢？storm有可能会重复计数(overcount)吧？”Storm 0.7.0引入了...

2018-06-06 10:29:12 172

原创 Hbase 统计表行数的3种方式总结

有些时候需要我们去统计某一个hbase表的行数，由于hbase本身不支持SQL语言，只能通过其他方式实现。可以通过一下几种方式实现hbase表的行数统计工作：1.count命令最直接的方式是在hbase shell中执行count的命令可以统计行数。hbase> count ‘t1′ hbase> count ‘t1′, INTERVAL => 100000 ...

2018-05-04 16:41:55 367

原创 eclipse或STS运行maven工程出现Missing artifact jdk.tools:jdk.tools:jar:1.7问题

最近项目中使用到大数据平台，代码中应用了hbase-client.0.98.6-hadoop2.jar包，该包中引用了jdk.tools.1.7，所以导致eclipse中pom.xml老是提示Missing artifact jdk.tools:jdk.tools:jar:1.7。从网上找了一下原因大多都说是工程maven找不到系统内的jdk1.7,根本原因是没有指定javaw.exe的的位置导致...

2018-05-04 16:22:24 1198

原创在mr中SkipBadRecords跳过损坏的记录

跳过损坏的记录 Hadoop提供了一个选项，在MR处理map阶段时跳过被损坏的输入记录。应用可以通过SkipBadRecords类使用这个特性。作业处理时可能对确定的输入集上map任务会失败。通常是map函数存在bug，这时需要fix这些bug。但有时却无法解决这种特殊情况。比如这个bug可能是第三方库导致的。这时这些任务在经过若干尝试后仍然无法成功完成，作业失败。这时跳过这些记录集，对作业...

2018-04-20 14:59:57 1411 1

原创 hdfs配置sasl模式

因为DataNode数据传输协议不使用Hadoop RPC框架，DataNode必须使用由dfs.datanode.address和dfs.datanode.http.address指定的特权端口进行身份验证。此身份验证基于以下假设：攻击者将无法在DataNode主机上获得root权限。以root用户身份执行hdfs datanode命令时，服务器进程首先绑定特权端口，然后删除特权并以HADO...

2018-04-19 17:01:42 6340 1

原创 CRLF line terminators导致shell脚本报错：command not found

Linux和Windows文本文件的行结束标志不同。在Linux中，文本文件用”/n”表示回车换行，而Windows用”/r/n”表示回车换行。有时候在Windows编写shell脚本时需要注意这个，否则shell脚本会报”No such file or directory”或”command not found line x”之类的错误，如果不知晓前因后果，肯定会被这个折腾得相当郁闷。如下所示t...

2018-04-19 14:33:38 1380

原创 Kerberos原理和工作机制

1.Kerberos原理和工作机制概述：Kerberos的工作围绕着票据展开，票据类似于人的驾驶证，驾驶证标识了人的信息，以及其可以驾驶的车辆等级。 1.1 客户机初始验证 1.2获取对服务的访问 2.kerberos中的几个概念 2.1 KDC：密钥分发中心，负责管理发放票据，记录授权。 2.2 域：kerberos管理领域的标识。 2.3 princip...

2018-04-19 14:18:01 17436

原创 Centos6.6下Postgresql9.6.6安装与配置

一、环境介绍系统平台：CentOS release 6.6 (Final)Postgresql：postgresql-9.6.6SELINUX=disabledIptables关闭二、安装过程1.安装依赖包yum -y install gcc*yum -y install readline-devel2.源码包获取wget http://ftp.postgre...

2018-04-04 17:44:34 752

原创 Kafka 生产者和消费者的笔记

Kafka 生产者和消费者的笔记Maven依赖： <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.10.1...

2018-04-04 17:03:46 397

原创 Linux下的tar压缩解压缩命令详解

tar-c: 建立压缩档案 -x：解压 -t：查看内容 -r：向压缩归档文件末尾追加文件 -u：更新原压缩包中的文件这五个是独立的命令，压缩解压都要用到其中一个，可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。-z：有gzip属性的 -j：有bz2属性的 -Z：有compress属性的 -v：显示所有过程 -O：将文件解开到标准输出...

2018-04-04 17:01:47 107

原创 IRichBolt和IBasicBolt对比

作为storm的使用者，有两件事情要做以更好的利用storm的可靠性特征。首先，在你生成一个新的tuple的时候要通知storm; 其次，完成处理一个tuple之后要通知storm。这样storm就可以检测整个tuple树有没有完成处理，并且通知源spout处理结果。storm提供了一些简洁的api来做这些事情。由一个tuple产生一个新的tuple称为： anchoring。你发射一个新...

2018-04-04 16:45:04 266

原创 kerberos协议

KDC 全称：key distributed center 作用：整个安全认证过程的票据生成管理服务，其中包含两个服务，AS和TGSAS 全称：authentication service 作用：为client生成TGT的服务TGS 全称：ticket granting service 作用：为client生成某个服务的ticket AD 全称：account databas...

2018-04-04 11:23:36 1888

原创 kerberos安装配置与使用

1.Kerberos协议： Kerberos协议主要用于计算机网络的身份鉴别(Authentication), 其特点是用户只需输入一次身份验证信息就可以凭借此验证获得的票据(ticket-granting ticket)访问多个服务，即SSO(Single Sign On)。由于在每个Client和Service之间建立了共享密钥，使得该协议具有相当的安全性 2.1. 环境配置　　安装k...

2018-04-03 18:37:16 34375 6

原创 hive2.1.1安装

安装hive 之前，要保证hadoop安装成功，本教程对应的是hadoop版本为2.6.4,hive 版本为 2.1.1，默认情况下，Hive元数据保存在内嵌的 Derby 数据库中，只能允许一个会话连接，只适合简单的测试。为了支持多用户多会话，则需要一个独立的元数据库，我们使用 MySQL 作为元数据库下载Hive 下载地址：https://mirrors.tuna.tsinghu...

2018-03-30 14:46:13 579

原创 mysql5.7安装

1、下载mysql5.7.21通用二进制版[root@CentOS local]# wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz 2、卸载系统自带的MariaDB[root@CentOS ~]# rpm -qa | grep mariad...

2018-03-30 11:03:59 236

原创 PostgreSQL pg_hba.conf 文件简析

pg_hba.conf是客户端认证配置文件，定义如何认证客户端。下面是常用的pg_hba.conf配置：# TYPE DATABASE USER CIDR-ADDRESS METHOD# "local" is for Unix domain socket connections onlylocal all all ident...

2018-03-14 17:14:36 799 1

原创 HBase学习笔记1 - 如何编写高性能的客户端Java代码

使用Java API与HBase集群交互时，需要先创建一个HTable的实例，再使用该实例提供的方法来进行插入/删除/查询等操作。要创建HTable对象，要先创建一个包含了HBase集群信息的配置实例Configuration conf，其一般创建方法如下：Configuration conf = HBaseConfiguration.create();//设置HBase集群的IP和端口

2018-01-09 11:12:06 328 1

原创 hadoop分布式集群

一、设置IP地址、网关、DNS nat地址：约定：第一块网卡为外网第二块网卡为内网（没有外网的机器也要将内网配置在第二块网卡上）说明：CentOS 6.6默认安装好之后是没有自动开启网络连接的！输入账号root再输入安装过程中设置的密码，登录到系统vi /etc/sysconfig/network-scripts/ifcfg-eth0 #编辑配置文件...

2018-01-04 17:06:38 301

lovebomei的博客