2017年08月_小强签名设计

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 MapReduce功能实现三---Top N

MapReduce功能实现系列：MapReduce功能实现一---Hbase和Hdfs之间数据相互转换MapReduce功能实现二---排序MapReduce功能实现三---Top NMapReduce功能实现四---小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3)MapReduce功能实现五---去重(Distinct)、计数(Count)MapReduce功能实现六---最...

2017-08-29 13:45:56 7705 1

原创 Flume拦截器（Interceptor）

Flume中的拦截器（interceptor），用户Source读取events发送到Sink的时候，在events header中加入一些有用的信息，或者对events的内容进行过滤，完成初步的数据清洗。这在实际业务场景中非常有用，Flume-ng 1.7中目前提供了以下拦截器：Timestamp Interceptor；Host Interceptor；Static Interce

2017-08-25 18:19:32 4731

原创 Flume 1.7组件概述与列表

一、Source列表：Component Interface(组件接口)Type Alias(类型别名)Implementation Class(实现类)org.apache.flume.Sourceavroorg.apache.flume.source.AvroSourceorg.apache.flume.Sourcenetcat

2017-08-25 13:46:00 644

原创 Flume 监控

本文大部分内容来自：http://blog.csdn.net/u014039577/article/details/515367531、为什么需要Flume监控？Flume作为一个强大的数据收集工具，虽然功能非常强大实用，但是却无法看到flume收集数据的详细信息，所以我们需要一个能展示flume实时收集数据动态信息的界面，包括flume成功收集的日志数量、成功发送的日志数量、flume启

2017-08-23 18:21:17 745

原创 Ganglia安装（Centos6.5）

前言：Ganglia是加州伯克利大学千禧计划的其中一个开源项目，以BSD协议分发。是一个集群汇总监控用的的软件，和很多人熟知的Cacti不同，cacti是详细监控集群中每台服务器的运行状态，而Ganglia是将集群中的服务器数据进行汇总然后监控。有时通过cacti或者zabbix看不出来的集群总体负载问题，却能够在Ganglia中体现，其集群的熵图我个人认为是个挺亮点的东西，一眼就明确集群的负载状...

2017-08-23 17:58:23 715

原创 Ambari熟练应用篇

利用Ambari管理Hadoop集群Service Level Action（服务级别的操作）首先我们进到Ambari的GUI页面，并查看Dashboard。在左侧的Service列表中，我们可以点击任何一个您想要操作的Service。以MapReduce2为例（Hadoop这里的版本为 2.7.x，也就是YARN+HDFS+MapReduce2），当点击MapReduce2后，就会看

2017-08-22 16:18:39 1823

原创 HDP3.1.5.0+Ambari2.7.5安装部署（Centos7.2）

Centos7.2下载地址：http://archive.kernel.org/centos-vault/7.2.1511/isos/x86_64/CentOS-7-x86_64-DVD-1511.isoCentos7.2安装教程：http://1130739.blog.51cto.com/1120739/1738791附：CentOS官网历史发行版本下载地址：http://archive.ker...

2017-08-22 15:30:54 6601 11

原创 Linux多种方法安装mysql

linux安装mysql服务分四种安装方法：一.源码安装，优点是安装包比较小，只有十多M，缺点是安装依赖的库多，安装编译时间长，安装步骤复杂容易出错；二.使用官方编译好的二进制文件安装，优点是安装速度快，安装步骤简单，缺点是安装包很大，300M左右。三.yum安装四.rpm安装安装方法一：请看我的另一篇文章：mysql源码脚本安装安装方法二：（Redh...

2017-08-22 11:44:01 12094 2

原创 Redhat6.6安装Ambari2.0.1

RedHat6.6 64位下载地址链接：https://pan.baidu.com/s/1o6FkKkE（密码：1aah）ambari官网：http://ambari.apache.org/Ambari是什么：Ambari跟Hadoop等开源软件一样，也是Apache Software Foundation中的一个项目，并且是顶级项目。就Ambari的作用来说，就是创

2017-08-21 17:01:53 1590

原创 mysql源码脚本安装

shell脚本及所需安装包下载地址：http://download.csdn.net/download/m0_37739193/9943346执行脚本前准备工作：1.将cmake-2.8.12.2.tar.gz和mysql-5.6.17.tar.gz上传到/tmp目录下[root@localhost ~]# ls /tmp/cmake-2.8.12.2.tar.gz

2017-08-21 15:48:28 1725

原创 Linux后台运行命令

&是指在后台运行nohup是永久执行用nohup运行命令可以使命令永久的执行下去，和用户终端没有关系，例如我们断开SSH连接都不会影响他的运行，注意nohup没有后台运行的意思；&才是后台运行&是指在后台运行，但当用户退出(挂起)的时候，命令自动也跟着退出那么，我们可以巧妙的吧他们结合起来用就是nohup COMMAND &这样就能使命令永久的在后台执行上面

2017-08-18 18:16:36 791 1

原创 RedHat5 单用户模式修改root密码

首先我们需要重启系统，在看到上面的界面时手速一定要快，按e。这个是grub引导界面。接下来我们会看到红帽系统启动选项，这里并不启用引导，而是需要编辑，同样按e。这里是红帽系统引导文件的配置信息，我们需要配置一下中间那个项目，利用方向键将光标移到中间，按e。在末尾输如“空格+1”，或者“空格+S”、“空格+single”如果你只输入“1”最终会失败，详见图片。之后

2017-08-14 15:03:31 7611 1

原创 VMware克隆虚拟机后重启network失败

首先将你想要克隆（在你需要多台虚拟机进行试验的时候，如果所有的虚拟机都进行新装的话太费时间了，还是克隆已有的虚拟机来的更方便些）的虚拟机关机后进行克隆（在开启状态下无法克隆），一直点击下一步即可，这里提醒的是到“克隆方法”这一步时我选择的是“创建完整克隆”选择后再下一步后自定义你虚拟机的名称和安装路径后即可进行克隆了点开你克隆好的虚拟机（我克隆的虚拟机是刚新装好的RedHat6.6，安装后基本没修...

2017-08-13 16:16:30 9534 5

原创 linux下jps报command not found

前言：在网上有好多说是以root身份vi /etc/profile，然后在下面加一行export PATH="usr/java/jdk160_05/bin:$PATH"（其中jdk160_05是你的安装目录，依你自己的安装情况所决定），然后source /etc/profile即可解决我觉得这是当你自己安装jdk后jps命令不好使时可以这样解决，但是经过我试验你自己安装jdk成功后（如：在解压jd...

2017-08-13 14:58:57 54311

转载使用HBase协处理器---基本概念和regionObserver的简单实现

本文转载自：http://www.cnblogs.com/ios123/p/6370724.html1. 简介对于HBase的协处理器概念可由其官方博文了解：https://blogs.apache.org/hbase/entry/coprocessor_introduction总体来说其包含两种协处理器：Observers和Endpoint。其中Observers可以

2017-08-08 17:05:15 1165

原创 flume-ng-1.6.0-cdh5.5.2用maven重新编译打包

先在Windows的cmd命令提示符下进入编译源码pom.xml的根目录下。一开始我执行mvn install -Dmaven.test.skip=true -Dtar总是报错：后来百度到如果某些情况下不检查环境，可以在maven命令上加一个-Denforcer.skip=true 来跳过enforcer插件执行。于是我执行命令：mvn install -Den

2017-08-08 14:10:11 844

原创 maven 安装和遇到的问题

windows7：1.检查JAVA_HOME环境变量（Java版本不要过低，在Windows的cmd命令操作符下输入）2.解压maven核心程序的压缩包，放在一个非中文无空格的路径下D:\maven\apache-maven-3.3.9apache-maven-3.3.9下载地址：http://download.csdn.net/detail/m0_37739193/99247...

2017-08-08 14:01:59 566

原创查看Linux版本信息命令

通常使用命令uname在Linux下面察看版本信息-a或--all：显示全部的信息； -m或--machine：显示电脑类型； -n或-nodename：显示在网络上的主机名称； -r或--release：显示操作系统的发行编号； -s或--sysname：显示操作系统名称； -v：显示操作系统的版本； -p或--processor：输出处理器类型或"unknown"； -i或-

2017-08-08 13:37:02 7576 1

原创 kafka安装及删除Topic

安装Kafka：我们使用3台机器搭建Kafka集群：192.168.4.142 h40192.168.4.143 h41192.168.4.144 h42kafka_2.10-0.8.2.0下载地址：http://mirror.bit.edu.cn/apache/kafka/0.8.2.0/kafka_2.10-0.8.2.0.tgz我安装的这个版本

2017-08-04 16:52:07 3872

原创利用Flume拦截器（interceptors）实现Kafka Sink的自定义规则多分区写入

本文大部分内容来自：http://lxw1234.com/archives/2015/11/547.htm，非常感谢原作者我们目前的业务场景如下：前端的5台日志收集服务器产生网站日志，使用Flume实时收集日志，并将日志发送至Kafka，然后Kafka中的日志一方面可以导入到HDFS，另一方面供实时计算模块使用。前面的文章《Kafka分区机制介绍与示例》介绍过Kafka的分区机

2017-08-03 17:37:13 3518 2

原创 Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中

一、统计kafka的topic在10秒间隔内生产数据的行数并将统计结果存入到hbase中先在hbase中建立相应的表：create 'linecount','count'开启kafka集群并建立相应的topic：[hadoop@h71 kafka_2.10-0.8.2.0]$ bin/kafka-topics.sh --create --zookeeper h71:2181,h

2017-08-02 15:23:58 3774

原创 VMware Workstation 错误(虚拟机似乎正在使用无法获得使用权)

也不知道是开的虚拟机太多后电脑运行的时间长了抗不住了还是咋的了，VMware会莫名其妙的崩掉，显示VMware Workstation 错误点击“确定”后虚拟机界面消失，但是虚拟机却处于运行状态，在你电脑的右下角的地址栏会有这么个小图标并显示有虚拟机在运行中用鼠标双击这个小图标或重新打开你VMware的快捷方式，在打开你的虚拟机却咋么都打不开，先显示该虚拟机正在使用中

2017-08-02 13:33:41 5081 2

原创 MapReduce功能实现十一---join

前言：对两份数据data1和data2进行关键词连接是一个很通用的问题，在关系型数据库中Join是非常常见的操作，各种优化手段已经到了极致。在海量数据的环境下，不可避免的也会碰到这种类型的需求，例如在数据分析时需要从不同的数据源中获取数据。不同于传统的单机模式，在分布式存储下采用MapReduce编程模型，也有相应的处理措施和优化方法。1.模拟数据：[hadoop@h71 q1]$

2017-08-02 11:04:29 2058 2

原创 MapReduce功能实现十---倒排索引(Inverted Index)

前言："倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）1.模拟数据：[hadoop@h71 q1]$ vi file1.txtmapr

2017-08-02 10:59:30 12002 9

原创 MapReduce功能实现九---Pv、Uv

前言：这里给出的是hadoop1版本的代码，如果你把前面的知识都掌握了的话，我相信你自己也可以写出hadoop2版本的代码来。一、Pv[hadoop@h71 q1]$ vi ip.txt192.168.1.1192.168.2.2192.168.3.3192.168.2.21.1.1.1[hadoop@h71 q1]$ hadoop fs -put ip.t

2017-08-02 09:22:17 3392

原创 MapReduce功能实现八---分区(Partition)

[hadoop@h71 q1]$ vi aa.txt aa 1 2bb 2 22cc 11dd 1ee 99 99 999ff 12 23 123注意：这里的分隔符是/t（Tab键）而不是空格[hadoop@h71 q1]$ hadoop fs -put aa.txt /inputjava代码：import org.apache.hadoop.con

2017-08-02 09:14:14 3971 1