蜡笔小吴-CSDN博客

原创 spark on yarn的那些事 ---第一篇

spark on yarn后一个spark application资源使用情况如何？在不考虑动态分配spark资源的情况下：一个spark application程序资源主要分为两部分：driver + executor，下面分别以client、cluster模式说明：client模式：spark driver启动在本地，而YARN Application

2016-09-22 15:03:15 2531

转载 hbase数据备份或者容灾方案

HBase的数据备份或者容灾方案有这几种：Distcp，CopyTable，Export/Import，Snapshot，Replication，以下分别介绍（以下描述的内容均是基于0.94.20版本）。一、Distcp 在使用distcp命令copy hdfs文件的方式实现备份时，需要禁用备份表确保copy时该表没有数据写入，对于在线服务的hbase集群，该方式不可用，而且在一

2016-07-02 23:16:15 5829

转载 HBase（0.96以上版本）过滤器Filter详解及实例代码

目录：引言 -- 参数基础1. 结构(Structural)过滤器--FilterList2.列值过滤器--SingleColumnValueFilter 2.1.第一种构造函数情况 -- 比较的关键字是字符数组 2.2.第二种构造函数情况 -- 比较的关键字是比较器ByteArrayComparable3.键值元数据

2016-07-02 21:48:13 852

转载 VMWare虚拟机下为Ubuntu 12.04.1配置静态IP（NAT方式）

背景在虚拟机下运行操作系统，尤其是Linux系统已经是非常常见的做法。有时你想在虚拟机下搭建一个(模拟)服务器来供主机访问，比如搭建一个telnet/ssh。此时你会发现，每次启动虚拟机，VMWare为虚拟机系统分配一个动态IP，这样每次去连接虚拟机的telnet时很不方便。如果设成静态IP就好了。VMnet8和NAT如果你的虚拟机是以NAT方式连入互联网的话，那么虚拟机的IP地址非配

2016-07-01 14:06:48 471

转载 Nginx 反向代理、负载均衡、页面缓存、URL重写及读写分离详解

大纲一、前言二、环境准备三、安装与配置Nginx四、Nginx之反向代理五、Nginx之负载均衡六、Nginx之页面缓存七、Nginx之URL重写八、Nginx之读写分离注，操作系统为 CentOS 6.4 x86_64 , Nginx 是版本是最新版的1.4.2，所以实验用到的软件请点击这里下载：http://yunpan.cn/QXIgqMmVmu

2016-06-30 21:53:24 795

转载 Linux下通过源码编译安装程序（configure/make/make install的作用）

一、程序的组成部分Linux下程序大都是由以下几部分组成：二进制文件：也就是可以运行的程序文件库文件：就是通常我们见到的lib目录下的文件配置文件：这个不必多说，都知道帮助文档：通常是我们在Linux下用man命令查看的命令的文档二、Linux下程序的存放目录Linux程序的存放目录大致有三个地方：/etc, /bin, /sbin, /lib ：系统启动就需要用

2016-06-30 11:54:21 14576 2

原创关于ubuntu中利用crontab设置定时任务的问题

今天在ubuntu中利用crontab设置定时执行脚本的过程中，发现设置没有出错，单独运行脚本也没有问题，但是总是定时运行失败。查阅很多文件之后发现：因为crontab可能有时候没有办法执行用户家目录下面的两个文件，分别是.bashrc和.bash_profile。意思是说，我们在设置crontab定时执行脚本时，要将用到的环境变量添加进脚本中。列：以下是摘自网

2016-06-17 17:13:41 4403

转载 hadoop中的Shuffle

缺省情况下，MapReduce Framework的Shuffle & Sort过程将所有和某一个键相关联的值“组合”(group)在一起，传送到一个唯一确定的Reducer，而且传送到每个Reducer的键是“排序”的（sort）。这对应到三个操作：1）“组合”； 2）“排序”；和 3）partition（确定哪个键及其值的组合送到哪个Reducer）。这三个操作涉及到最基本的MapRed

2016-06-07 15:43:34 320

转载 kafka

问题导读：1.zookeeper在kafka的作用是什么？2.kafka中几乎不允许对消息进行“随机读写”的原因是什么？3.kafka集群consumer和producer状态信息是如何保存的？4.partitions设计的目的的根本原因是什么？一、入门 1、简介 Kafka is a distributed,partitioned

2016-05-28 17:27:13 1011 2

原创如何利用maven将maven项目打包成可执行的jar

第一步：pom.xml添加assembly插件，即在pom.xml文件中添加： maven-assembly-plugin 2.2

2016-05-26 22:53:09 690

原创如何利用maven向本地仓库导入官网没有的jar包

对于经常使用maven管理项目的人来说，经常会遇到官网找不到我们需要的jar包链接的情况。面对这种情况，我们需要将需要的jar包下载下来，然后导入到本地仓库中。命令如下：mvn install:install-file -DgroupId=包名 -DartifactId=项目名 -Dversion=版本号 -Dpackaging=jar -Dfile=jar文件所在路径

2016-05-26 21:20:24 4224

原创 zookeeper启动失败，zkServer.sh status 出错

运行zookeeperd后显示启动成功：JMX enabled by defaultUsing config: /data/programfiles/zookeeper-3.4.5/bin/../conf/zoo.cfgStarting zookeeper ... STARTED但用zkServer.sh status查看，反馈如下：JMX enable

2016-05-13 11:02:44 17399 1

转载关于hbase的一些调优问题

1、HMaster HMaster的任务前面已经说过了，两个大方向：一、管理Hbase Table的 DDL操作二、region的分配工作，任务不是很艰巨，但是如果采用默认自动split region的方式， HMaster会稍微忙一些，负载不大，可适度对此进程做适量放大heap 的操作，但不可太大，因为更耗内存的是HRegionServer 2、HRe

2015-12-24 21:58:46 9806

1、Flume 的一些核心概念：1.1 数据流模型1.2 高可靠性1.3 可恢复性2、Flume 整体架构介绍2.1 Exec source2.2 Spooling Directory Source3、常用架构、功能配置示例3.1 先来个简单的：单节点 Flume 配置3.2 单节点 Flume 直接写入 HDFS3.3 来一个常见架构：多 agent 汇聚写入 HDFS3.3.1 在各个webs

2015-12-15 21:22:04 383

转载 hadoop1.x和hadoop2.x的对比

1.能否总结出MapReduce设计思路？2.hadoop1遇到了什么问题？3.hadoop2做了什么改进，具体哪些变化？对 hadoop1 和 hadoop 2 做了一个解释图片不错拿来看看Hadoop 1.0从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路：首先用户程序 (JobClient) 提交了一个

2015-12-03 21:15:20 367

原创关于weka连接mysql的一些问题

如何在weka中连接数据库相关准备：Windows 7jdk7weka-3.6.12.exemysql-5.0MySQL Driver for JDBC--->mysql-connector-java-5.1.22-bin.jar 1、进入weka的安装目录1）新建文件夹lib和文件夹weka，然后将mysql-connector-java-5.1.22-bin

2015-11-24 16:29:12 433

转载 Hadoop2.x集群动态添加删除数据节点

如果Hadoop集群已经在运行了，这时可能需要动态的添加新的数据节点到Hadoop系统中去，或者将某个数据节点下线，由于业务的需要，集群是不能重启的，那么具体的DataNode添加、删除步骤是什么样的呢？下面以DataNode的上线为例详细说明下如何动态的给HDFS集群新增数据节点(Hadoop2.0版本)。首先简单说下几个相关的配置文件。(1)由dfs.hosts

2015-10-30 11:17:50 1301

转载关于JVM的设置问题

1. 设置JVM内存的参数有四个：-Xmx Java Heap最大值，默认值为物理内存的1/4，最佳设值应该视物理内存大小及计算机内其他内存开销而定；-Xms Java Heap初始值，Server端JVM最好将-Xms和-Xmx设为相同值，开发测试机JVM可以保留默认值；-Xmn Java Heap Young区大小，不熟悉最好保留默认值；-Xs

2015-10-10 14:46:32 379

原创利用C3P0连接池连接mysql数据库，超过几小时后连接报wait_timeout错误

之前做了一个小项目，用的是C3P0连接池连接mysql数据库，由于连接数目较小，隔天再连接发现报如下异常错误，然后重新刷新后又正常：之后查看资料后发现是因为：MySQL 的默认设置下，当一个连接的空闲时间超过8小时后，MySQL 就会断开该连接，而 c3p0 连接池则以为该被断开的连接依然有效。在这种情况下，如果客户端代码向 c3p0 连接池请求连接的话，连接池就会把已经失效的连接返回给

2015-09-25 15:31:04 1795

转载 java工厂设计模式

工厂模式：主要用来实例化有共同接口的类，工厂模式可以动态决定应该实例化那一个类。工厂模式的形态工厂模式主要用一下几种形态：1：简单工厂（Simple Factory）。2：工厂方法（Factory Method）。3：抽象工厂（Abstract Factory）。简单工厂（Simple Factory）又叫静态工厂，是工厂模式三中状态中结构最为简单的。主要有一个静态

2015-09-02 15:39:09 369

原创关于java的初始化顺序的问题

Java初始化顺序1在new B一个实例时首先要进行类的装载。（类只有在使用New调用创建的时候才会被java类装载器装入）2，在装载类时，先装载父类A，再装载子类B3，装载父类A后，完成静态动作（包括静态代码和变量，它们的级别是相同的，安装代码中出现的顺序初始化）4，装载子类B后，完成静态动作类装载完成，开始进行实例化1，在实例化子类B时，先要实例化父类A2，实例化父

2015-08-20 10:36:34 344

转载 eclipse创建maven管理的web项目

eclipse中新建maven项目博客分类：mavenmaven maven是个项目管理工具，集各种功能于一身，下面介绍maven web项目在eclipse种的配置，并于tomcat集成。配置成功后，可以跟一般的web项目一样调试。一、准备条件1、安装下载jdk 这里以jdk1.6为例 2、安装eclipse 到ecl

2015-07-27 20:03:45 406

原创 sqoop遇到Exception in thread "main" java.lang.NoSuchMethodError

之前运行sqoop一直好好的，可是今天sqoop输入命令之后一直报错：这是sqoop命令 sqoop export --connect jdbc:mysql://192.168.8.120:3306/test--username root --password 123 --export-dir '/test' --table td_bak -m 1 --fields-te

2015-07-21 11:47:51 1276

转载 ubuntu下安装eclipse，配置jdk环境变量仍然报错

可以在终端顺利启动Eclipse，但是鼠标双击，或者用起动器启动就会出现如下的内容：A Java RunTime Environment (JRE) or Java Development Kit (JDK) must be available in order to run Eclipse. No java virtual machine was found after searchin

2015-06-11 20:19:56 995

转载 java 模式

设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式，共十一种：策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。其实还有两类：并发型模式和线程池模式

2015-06-05 16:34:41 357

转载 java 的单例设计模式

概念：　　java中单例模式是一种常见的设计模式，单例模式分三种：懒汉式单例、饿汉式单例、登记式单例三种。　　单例模式有以下特点：　　1、单例类只能有一个实例。　　2、单例类必须自己创建自己的唯一实例。　　3、单例类必须给所有其他对象提供这一实例。　　单例模式确保某个类只有一个实例，而且自行实例化并向整个系统提供这个实例。在计算机系统中，线程池、缓存、日志对象、对话框、打印

2015-06-05 16:14:11 322

转载 HBase HA (多HMaster)

网上大部分安装介绍都是基于单个HMaster的，这样会存在一个单点故障问题.这里我介绍下多个HMaster的安装配置，详见下面配置文件：一、 hbase-env.sh 文件修改点：# The java implementation to use. Java 1.6 required. export JAVA_HOME=/usr/java/latest# Extra Jav

2015-05-28 09:32:08 1047

原创 ubuntu操作遇到问题

今天在用apt-get -y install安装软件的时候，中途出现这样的问题：Media change: please insert the disc labeled导致安装停滞不前；接下来ctrl+z停止apt-get安装然后查找资料后，解决方案如下：这时可以打开文件/etc/apt/sources.list文件，注释掉cdrom那一行，然后再执行apt-get updat

2015-05-14 13:38:17 556

转载 Ganglia监控Hadoop集群的安装部署

摘要: Ganglia监控Hadoop集群的安装部署一、安装环境 Ubuntu server 12.04 安装gmetad的机器：192.168.52.105 安装gmond的机器：192.168.52.31，192.168.52.32，192.168.52.33，192.168.52.34，192.168.52.35，192.16 ...Ganglia监控Hadoop集群的安装部署

2015-05-14 12:37:41 368

转载 Libnids开发包介绍

Libnids是一个用于网络入侵检测开发的专业编程接口,它使用了Libpcap所以它具有捕获数据包的功能。同时，Libnids提供了TCP数据流重组功能，所以对于分析基于TCP协议的各种协议Libnids都能胜任.Libnids还提供了对IP分片进行重组的功能，以及端口扫描检测和异常数据包检测功能。Libnids数据结构一.基本常量1.报警类型enum{NIDS_W

2015-05-13 19:23:07 427

转载 Hive运行架构及配置部署

Hive 运行架构由Facebook开源，最初用于解决海量结构化的日志数据统计问题：ETL工具；构建于Hadoop的HDFS和MapReduce智商，用于管理和查询结构化/非结构化数据的数据仓库；设计目的是让SQL技能良好，但Java技能较弱的分析师可以查询海量数据：使用HQL作为查询接口；使用HDFS作为存储底层；使用MapReduce作为执行层；2008年faceb

2015-05-12 17:21:00 500

转载 javaweb 中的路径问题

Java Web开发中路径问题小结（1）Web开发中路径的几个基本概念假设在浏览器中访问了如下的页面，如图1所示：图1Eclipse中目录结构如图2所示：图2那么针对这个站点的几个基本概念表述如下：1. web站点的根目录：http://localhost:8080/2. web应用程序的的根目录：http://localhost:808

2015-05-12 14:58:41 469

转载 JUnit报错：java.lang.ClassNotFoundException: com.mogodb.test.test

转自：http://www.cnblogs.com/xing901022/p/4135954.html最近在使用JUnit做单元测试时，发现新写好的测试类运行总是出错，报找不到类异常。Class not found com.mogodb.test.testjava.lang.ClassNotFoundException: com.mogodb.test.test a

2015-04-27 12:41:50 873

原创 java通过jdbc连接hive1.0.0（伪分布）的问题

通过java连接hive1.0.0 读取数据的时候（伪分布式），首先在hbase中已经有表flowSets，表的结构是一个列簇：flow；其中有一列为bytes；启动hive：hive -hiveconf hbase.master=master:60000接下来创建表：create external table flowsets(key string, value string)sto

2015-04-23 19:22:54 590

转载 mysql密码忘记，该怎么办

如果忘记了 MySQL 的 root 密码，可以用以下方法重新设置：LINUX: 1. KILL掉系统里的MySQL进程； 2. 用以下命令启动MySQL，以不检查权限的方式启动； mysqld_safe -skip-grant-tables & 或是修改/etc/my.cnf文件,在[mysqld]下添加 sk

2015-04-23 17:13:40 417

转载 Hive:用Java代码通过JDBC连接Hiveserver

我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信，但这三种方式最常用的是CLI；Client 是Hive的客户端，用户连接至 Hive Server。在启动 Client 模式的时候，需要指出Hive Server所在节点，并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。今天我们来谈谈怎么通过HiveServer来操作Hiv

2015-04-23 14:09:12 827

转载使用java连接hive，并执行hive语句详解

安装hadoop 和 hive我就不多说了，网上太多文章自己看去首先，在机器上打开hiveservice[html] view plaincopyhive --service hiveserver -p 50000 & 打开50000端口，然后java就可以使用java连了，需要的jar包我发个图片就这多jar包，必须的不多说，直

2015-04-21 20:36:38 5676 1

转载 hive与hbase数据交互的详解指南

目录[-]HBase和Hive的集成原理1.文章来源：2.基本介绍3.软件版本4.安装位置5.整合步骤1.在 /usr/local/hbase-0.90.4下：2.修改hive-site.xml文件6.测试hive到hbase中1. 用hive创建hbase能识别的表2. 导入数据到关联hbase的表中去1.在hive中新建一张中间表2.插入数据到hbase表中去3.查看关联hbase

2015-04-21 16:05:49 2817

转载使用Hive读取Hbase中的数据

第一步，启动hadoop，命令：./start-all.sh第二步，启动hive，命令：./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6

2015-04-21 15:30:01 376

空空如也

空空如也