forover2015-CSDN博客

原创 Hive SQL运行状态监控（HiveSQLMonitor）

Hive SQL运行状态监控（HiveSQLMonitor）引言目前数据平台使用Hadoop构建，为了方便数据分析师的工作，使用Hive对Hadoop MapReduce任务进行封装，我们面对的不再是一个个的MR任务，而是一条条的SQL语句。数据平台内部通过类似JDBC的接口与HiveServer进行交互，仅仅能够感知到一条SQL的开始与结束，而中间的这个过程通常是漫长的（两个因素：

2016-03-03 11:40:42 3795 2

转载 spark-streaming系列------- 3. Kafka DirectDStream方式数据的接收

spark-streaming系列------- 3. Kafka DirectDStream方式数据的接收KafkaRDD分区个数的确定和每个分区数据接收的计算在KafkUtils.createDirectStream创建了DirectDStream，代码如下：def createDirectStream[ K: ClassTag, V: ClassTag, KD <

2016-01-20 11:38:54 459

转载 Spark Streaming实例分析

这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程讲解》。Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));// 获得一个DStream负责连接监听端口:地址val lines = ssc.socketTextStr

2016-01-19 18:56:12 290

转载 spark的kafka的低阶API createDirectStream的一些总结。

大家都知道在spark1.3版本后，kafkautil里面提供了两个创建dstream的方法，一个是老版本中有的createStream方法，还有一个是后面新加的createDirectStream方法。关于这两个方法的优缺点，官方已经说的很详细(http://spark.apache.org/docs/latest/streaming-kafka-integration.html)，总之就是cr

2016-01-19 10:09:36 673

转载 IntelliJ IDEA 快捷键和设置

IntelliJ IDEA 使用总结http://my.oschina.net/xianggao/blog/97539IntelliJ IDEA 问题解决：1.乱码，主要是快捷键的字样显示乱码中文字体显示乱码？2.菜单项等的字体太小，怎么能设置下? ------------------------------------------------实用快捷键:C

2016-01-12 18:56:44 252

转载 intellij idea 添加动态 user library(java.lang.VerifyError)

使用IDEA的时候有时要用到eclipse的user library，由于两个IDE导入library的方式不同导致我们找不到导入user library的方法。查IDEA的官方文档，找到方法如下：首先要导入user library ：EclipseIDEAWorkspaceProjectProje

2016-01-09 11:26:55 749

转载 kafka文档（2）----kafka API（java版本）

原文地址： http://kafka.apache.org/documentation.html#api 当前正在重写kafka的JVM客户端。kafka 0.8.2包含的java producer就是重写的。下一个release版本将会包行重写的java consumer。这些新的的客户端将取代现存的Scala客户端，但是为了兼容性，它们仍将存在一段时间。可以通过一些单

2016-01-08 20:09:27 1036

转载 Kafka文档（1）---- 基本介绍（Getting Start）

Apache Kafka官网首页翻译Apache Kafka 是发布-订阅机制的消息传递系统，可以认为具有分布式日志提交功能。Fast一个单独的Kafka broker每秒可以处理来自成千上万个客户端的数百兆字节的读写操作。Scalable从设计上来说，在一个大规模组织中，一个独立的kafka集群就可以完成中心备份工作。它无须停

2016-01-08 20:07:28 283

转载 kafka文档（3）---- 配置选项翻译

来源：http://kafka.apache.org/documentation.html#configuration3. ConfigurationKafka在配置文件中使用key-value方式进行属性配置。这些values可以通过文件或者编程方式提供。3.1 Broker Configs基本配置如下：-broke

2016-01-08 20:06:30 577

转载 Hive学习笔记-分隔符处理

hive默认是只支持单字符的分隔符，默认单字符是\001。当然你也可以在创建表格时指定数据的分割符号。如：create table user(name string, password string) row format delimited fields terminated by '\t'。通过这种方式，完成分隔符的指定。如果你想要支持多字符的分隔符可以通过如下方式：

2016-01-07 15:01:14 1139

原创 idea14字体设置

文用Consolas等宽的（程序员显示codes的理想字体选择），中文用微软雅黑（传说中的最贵字体）。设置方法：软件界面使用微软雅黑：编辑器中字体选择Consolas：但是到此为止中文字体是IntelliJ IDEA的默认字体，个人觉得比较不好看。所以修改JVM的fontconfig.properties：SimSun/SimSun-18030-->Micros

2016-01-07 09:25:21 557

转载学会使用IntelliJ IDEA 12 之教程二 (字体设置,光标设置)

用惯了Eclipse，再来使用IntelliJ IDEA真是很难适应。设置1：字体修改IDE的字体：设置-Appearance-Look and Feel-OverRide设置你想要的字体。我设置的【微软雅黑】。修改编辑器的字体（也就是代码的字体）：设置-Editor-Color&Font，默认的scheme是不可以更改的，你需要save as，建立

2016-01-07 09:16:04 567

转载 spark sql on hive初探

前一段时间由于shark项目停止更新，sql on spark拆分为两个方向，一个是spark sql on hive,另一个是hive on spark。hive on spark达到可用状态估计还要等很久的时间，所以打算试用下spark sql on hive，用来逐步替代目前mr on hive的工作。当前试用的版本是spark1.0.0,如果要支持hive,必须重新进行编译，编译的

2016-01-04 15:50:13 682

转载 HttpClient使用详解

Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会

2016-01-03 23:58:51 240

转载深入浅出数据仓库中SQL性能优化之Hive篇

一个Hive查询生成多个Map Reduce Job，一个Map Reduce Job又有Map，Reduce，Spill，Shuffle，Sort等多个阶段，所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化（其中又会有细分），针对MR全局的优化，和针对整个查询（多MR Job）的优化，下文会分别阐述。在开始之前，先把MR的流程图帖出来（摘自Hadoop权威指南），方

2016-01-03 18:08:29 512

转载 Hive 设置map 和 reduce 的个数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有

2016-01-03 11:46:53 320

转载 Hive命令的3种调用方式

方式1：hive –f /root/shell/hive-script.sql（适合多语句）hive-script.sql类似于script一样，直接写查询命令就行例如：[root@cloud4 shell]# vi hive_script3.sqlselect * from t1;select count(*) from t1;不进入交互

2016-01-03 11:46:17 521

转载 Hive的文件格式比较

Hive的三种文件格式：TEXTFILE、SEQUENCEFILE、RCFILE中，TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的，RCFILE是基于行列混合的思想，先按行把数据划分成N个row group，在row group中对每个列分别进行存储。另：Hive能支持自定义格式，详情见：Hive文件存储格式基于HDFS的行存储具备快速数据加载和动态负载的高适应能力，

2016-01-03 11:45:42 242

转载 Hive中分组取前N个值

背景假设有一个学生各门课的成绩的表单，应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。解决思路对于取出每科成绩前100名的学生成绩，针对学生成绩表，根据学科，成绩做order by排序,然后对排序后的成绩，执行自定义函数row_number(),必须带一个或者多个列参数，如ROW_NUMBER(col1, ....)，它

2016-01-03 11:44:29 1040

转载 Hive总结（十二）Hive查询进阶

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序，你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理，

2016-01-03 11:43:55 264

转载 Hive总结（十一）Hive自定义函数UDF

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Inte

2016-01-03 11:42:58 256

转载 Hive总结（十）Hive 输入输出适配类（输出CSV,XML）

在最初使用 hive ，应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似，语法上有大量相同的地方，这给我们上手带来了很大的方便，但是要得心应手地写好这些语句，还需要对 hive 有较好的了解，才能结合 hive 特色写出精妙的语句。关于 hive 语言的详细语法可参考官方 wiki 的语言手册：http://wiki.apache.org/hadoop/

2016-01-03 11:42:24 265

转载 Hive总结（九）Hive体系结构

1、Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式

2016-01-03 11:41:47 755

转载 Hive总结（八）Hive数据导出三种方式

今天我们再谈谈Hive中的三种不同的数据导出方式。根据导出的地方不一样，将这些方式分为三种：（1）、导出到本地文件系统；（2）、导出到HDFS中；（3）、导出到Hive的另一个表中。为了避免单纯的文字，我将一步一步地用命令进行说明。一、导出到本地文件系统　　hive> insert overwrite local directory

2016-01-03 11:40:57 337

转载 Hive总结（六）hive入门经典

转自：http://www.zypx.cn/technology/20100606132430320046.htmlHive 是什么在接触一个新的事物首先要回到的问题是：这是什么？这里引用 Hive wiki 上的介绍：Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools

2016-01-03 11:40:00 343

转载 Hive总结（七）Hive四种数据导入方式

Hive的几种常见的数据导入方式这里介绍四种：（1）、从本地文件系统中导入数据到Hive表；（2）、从HDFS上导入数据到Hive表；（3）、从别的表中查询出相应的数据并导入到Hive表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表，如下：

2016-01-03 11:38:57 284

转载 Hive总结（五）hive日志

日志记录了程序运行的过程，是一种查找问题的利器。Hive中的日志分为两种1. 系统日志，记录了hive的运行情况，错误状况。2. Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢？在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况，默认的存储情况：hive.root.log

2016-01-03 11:37:24 352

转载 Hive总结（三）hive组件和执行过程

对Hive的基本组成进行了总结：1、组件：元存储（Metastore ）－存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动（Driver ）－控制 HiveQL 生命周期的组件，当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器（Query Compiler）－是一个组件，将HiveQL编译成有向无环图（direc

2016-01-03 11:36:17 308

转载 Hive总结（二）hive基本操作

阅读本文章可以带着下面问题：1.与传统数据库对比，找出他们的区别2.熟练写出增删改查（面试必备）创建表：hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and th

2016-01-03 11:35:05 201

转载 Hive总结（一）hive初始

1.没有接触，不知道这个事物是什么，所以不会产生任何问题。2.接触了，但是不知道他是什么，反正我每天都在用。3.有一定的了解，不够透彻。那么hive，1.我们对它了解多少？2.它到底是什么？3.hive和hadoop是什么关系？扩展：hbase和hive是什么关系？Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求

2016-01-03 11:33:57 281

转载【Java线程】Java线程池ExecutorService

示例[java] view plaincopyprint?import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import java.util.concurrent.ScheduledExecutorService; public class

2015-12-30 13:44:19 192

转载 HBase 常用Shell命令

两个月前使用过hbase，现在最基本的命令都淡忘了，留一个备查~原文链接：http://www.cnblogs.com/nexiyi/p/hbase_shell.html进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成功之后再使

2015-12-29 15:13:22 198

转载 java多线程学习-java.util.concurrent详解(四) BlockingQueue

自：http://janeky.iteye.com/blog/7706717.BlockingQueue “支持两个附加操作的 Queue，这两个操作是：获取元素时等待队列变为非空，以及存储元素时等待空间变得可用。“ 这里我们主要讨论BlockingQueue的最典型实现：LinkedBlockingQueue 和ArrayBlockingQueue。两者的不同是底

2015-12-21 19:51:43 286

转载 java中queue的使用

java中queue的使用Queue接口与List、Set同一级别，都是继承了Collection接口。LinkedList实现了Queue接口。Queue接口窄化了对LinkedList的方法的访问权限（即在方法中的参数类型如果是Queue时，就完全只能访问Queue接口所定义的方法了，而不能直接访问 LinkedList的非Queue的方法），以使得只有恰当的方法才可以使用。Blo

2015-12-21 19:48:17 243

转载线程池ThreadPoolExecutor使用简介

一、简介线程池类为 java.util.concurrent.ThreadPoolExecutor，常用构造方法为： ThreadPoolExecutor(int corePoolSize, int maximumPoolSize, long keepAliveTime, TimeUnit unit, BlockingQueue workQueue, RejectedEx

2015-12-21 17:13:02 292

原创 Callable接口和Runnable接口

1、Java代码 public interface Executor { /** * Executes the given command at some time in the future. The command * may execute in a new thread, in a pooled thread, or in th

2015-12-21 14:58:56 237

转载 Java并发编程：线程池的使用

Java并发编程：线程池的使用　　在前面的文章中，我们使用线程的时候就去创建一个线程，这样实现起来非常简便，但是就会有一个问题：　　如果并发的线程数量很多，并且每个线程都是执行一个时间很短的任务就结束了，这样频繁创建线程就会大大降低系统的效率，因为频繁创建线程和销毁线程需要时间。　　那么有没有一种办法使得线程可以复用，就是执行完一个任务，并不被销毁，而是可以继续执行其他的任务？

2015-12-21 13:57:08 233

原创 java.lang.Runtime类总结

Runtime类封装了运行时的环境。每个 Java 应用程序都有一个 Runtime 类实例，使应用程序能够与其运行的环境相连接。一般不能实例化一个Runtime对象，应用程序也不能创建自己的 Runtime 类实例，但可以通过 getRuntime 方法获取当前Runtime运行时对象的引用。一旦得到了一个当前的Runtime对象的引用，就可以调用Runtime对象的方法去控制Ja

2015-12-21 10:45:49 295

转载 maven常用命令集

maven常用命令 mvn compile 编译主程序源代码，不会编译test目录的源代码。第一次运行时，会下载相关的依赖包，可能会比较费时间。 mvn test-compile 编译测试代码，compile之会后生成target文件夹，主程序编译在classes下面，测试程序放在test-classes下。 mvn test 运行应用程序中的单元测试 mvn

2015-12-19 17:33:59 194

转载 maven核心，pom.xml详解

什么是pom? pom作为项目对象模型。通过xml表示maven项目，使用pom.xml来实现。主要描述了项目：包括配置文件；开发者需要遵循的规则，缺陷管理系统，组织和licenses，项目的url，项目的依赖性，以及其他所有的项目相关因素。快速察看： 4.0.0 ... ... ... ... ... ...

2015-12-19 17:12:15 193

人工神经网络在综合水质评价中的应用

时间序列模型-数模优秀教材

空空如也