2017年11月_盛装吾步

12月 11月 10月 09月 03月 02月 01月

原创 java try后面括号的作用

Java7新特性，支持使用try后面跟随（）括号管理释放资源例如通常使用try代码块try { fis = new FileInputStream(source); fos = new FileOutputStream(target); byte[] buf = new byte[8192]; int i;

2017-11-29 17:50:30 7994

原创 Google Dremel数据模型详解

转载自：http://blog.csdn.net/dc_726/article/details/41627613首先简单介绍一下Dremel是什么，能解决什么问题。第二部分着重讲Dremel的数据模型，即数据结构。第三部分将谈一下在此数据结构上设计的算法。1 起源Dremel的数据模型起源于分布式系统的应用环境(Protocol Buffers，一种在Google内

2017-11-28 16:59:03 3047 1

原创 Impala-大数据时代快速SQL引擎

背景随着大数据时代的到来，Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作，大家也无意间的想往大数据方向靠拢，即使每天数据也就几十、几百M也要放到Hadoop上作分析，只会适得其反，但是当面对真正的Big Data的时候，Hadoop就会暴露出它对于数据分析查询支持的弱点。甚至出现《MapReduce: 一个巨大的倒退》此类极端的吐槽，这也怪不得Hadoop，毕

2017-11-28 15:03:30 7134 3

原创 Impala、Hive与HBase整合实践

我们知道，HBase是一个基于列的NoSQL数据库，它可以实现的数据的灵活存储。它本身是一个大表，在一些应用中，通过设计RowKey，可以实现对海量数据的快速存储和访问。但是，对于复杂的查询统计类需求，如果直接基于HBase API来实现，性能非常差，或者，可以通过实现MapReduce程序来进行查询分析，这也继承了MapReduce所具备的延迟性。实现Impala与HBase整合，我们能够获

2017-11-24 14:44:23 1082

翻译 Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南

概述Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过例如map,reduce,join,window等的高级函数组成的复杂算法处理. 最终, 处理后的数据可以输出到文件系统, 数据库以及实时仪表盘

2017-11-22 15:06:46 1359

转载 Linux系统下运行jar文件，提示：No main manifest attribute, in XXX.jar

在Linux系统下执行java -jar XXX.jar com.HelloWorld往往会提示：No main manifest attribute, in XXX.jar原因如下：正常情况下，java打包成jar包需要在MANIFEST.MF中指定Main-Class项以便运行java -jar XXX.jar时找到对应的主类。因为-jar的

2017-11-21 14:46:13 42890 3

原创 eclipse + maven + scala+spark环境搭建

一、配置eclipse + maven + scala环境1. 在Eclipse Market中安装Scala IDE、Maven 2. 安装m2e-scala(图中的url是：http://alchim31.free.fr/m2e-scala/update-site/) 二、测试eclipse+m

2017-11-16 15:42:37 940

转载 An error occurred while collecting items to be installed session context was:(profile=epp.package.je

这个解决方法也适用于：1.安装插件报错，找不到某jar包；2.安装插件报错An error occurred while collecting items to be installed session context was:(profile=epp.package.je..。出现错误的原因p2有它的一个垃圾回收机制，之前删除的JAR包

2017-11-16 15:19:12 1031 2

原创 RPC 原理

RPC（Remote Procedure Call Protocol）的主要功能目标是让构建分布式计算（应用）更容易，在提供强大的远程调用能力时不损失本地调用的语义简洁性。1 如何调用他人的远程服务？由于各服务部署在不同机器，服务间的调用免不了网络通信过程，服务消费方每调用一个服务都要写一坨网络通信相关的代码，不仅复杂而且极易出错。如果有一种方式能让我们像调用本

2017-11-14 18:25:30 715

原创 Eclipse连接Hadoop2.7.3 HA 集群配置及测试

1. 安装Hadoop2.7.3 6节点集群并HAnn:bi-hdp0nn:bi-hdp32. 编译hadoop-eclipse-plugin-2.7.3基于hadoop2x-eclipse-pluginhttps://github.com/winghc/hadoop2x-eclipse-plugin3.配置插件打

2017-11-10 09:45:09 1013

转载 eclipse 中运行 Hadoop2.7.3 map reduce程序出现错误(null) entry in command string: null chmod 0700

环境：windowsHadoop版本：hadoop2.7.3开发工具：eclispe-hadoop-plugin运行map reduce任务报错：(null) entry in command string: null chmod 0700解决办法：在https://github.com/SweetInk/hadoop-c

2017-11-09 16:34:17 2569

原创 Hadoop HA高可用集群配置详解

1 Hadoop HA架构详解1.1 HDFS HA背景HDFS集群中NameNode 存在单点故障（SPOF）。对于只有一个NameNode的集群，如果NameNode机器出现意外情况，将导致整个集群无法使用，直到NameNode 重新启动。影响HDFS集群不可用主要包括以下两种情况：一是NameNode机器宕机，将导致集群不可用，重启NameNode之后才可使用；二是计划内

2017-11-09 09:48:26 1449

转载 hbase的coprocessor使用

1.起因(Why HBase Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括：无法轻易建立“二级索引”，难以执行求和、计数、排序等操作。比如，在旧版本的(计数据表的总行数，需要使用Counter方法，执行一次MapReduce Job才能得到。虽然HBase在数据存储层中集成了MapReduce，能够有效用于数据表的分布式计算。然而在很多情况下，做一些简单的

2017-11-08 17:30:18 991

原创 MySQL中Cardinality介绍

1) 什么是Cardinality不是所有的查询条件出现的列都需要添加索引。对于什么时候添加B+树索引。一般的经验是，在访问表中很少一部分时使用B+树索引才有意义。对于性别字段、地区字段、类型字段，他们可取值范围很小，称为低选择性。如SELECT * FROM student WHERE sex='M'按性别进行查询时，可取值一般只有M、F。因此SQL语句得

2017-11-08 17:28:37 1178

转载 Apache Calcite：Hadoop中新型大数据查询引擎

Apache Calcite是面向Hadoop新的查询引擎，它提供了标准的SQL语言、多种查询优化和连接各种数据源的能力，除此之外，Calcite还提供了OLAP和流处理的查询引擎。正是有了这些诸多特性，Calcite项目在Hadoop中越来越引入注目，并被众多项目集成。Calcite之前的名称叫做optiq，optiq起初在Hive项目中，为Hive提供基于成本模型的优化，即CBO（Co

2017-11-07 15:46:07 1021

原创 HIVE 数据类型转换

Hive内置数据类型由基本数据类型和复杂数据类型组成。今天的话题是Hive数据类型之间的转换。同Java语言一样，Hive也包括隐式转换（implicit conversions）和显式转换（explicitly conversions）。　　Hive在需要的时候将会对numeric类型的数据进行隐式转换。比如我们对两个不同数据类型的数字进行比较，假如一个数据类型是INT型，另一个是SMA

2017-11-07 14:02:15 5748

转载 Kylin执行查询流程分析

Kylin基于MOLAP实现，查询的时候利用Calcite框架，从存储在Hbase的segment表（每一个segment对应着一个htable）获取数据，其实理论上就相当于使用Calcite支持SQL解析，数据从Hbase中读取，中间Kylin主要完成如何确定从Hbase中的哪些表读数据，如何读取数据，以及解析数据的格式。场景设置首先设想一种cube的场景：维度：A（ca

2017-11-07 10:36:36 1264

转载 Hive系列之SerDe

SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。序列化作用序列化是对象转换为字节序列的过程。反序列化是字节序列恢复为对象的过程。对象的序列化主要有两种用途：对象的持久化，即把对象转换成字节序列后保存到文件中；对象数据的网络传送。除了上面两点， hive的序列化的作用还包括：Hive的反序列化是对key/value反序列化成hive table的每个

2017-11-03 10:45:40 11903

原创 kylin从入门到实战：实际案例

Apache Kylin（麒麟）是由eBay开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据。底层存储用的是HBase，数据输入与cube building用的是Hive，中间数据存储用的是HDFS。1.创建project进入kylin操作界面，如果没有project可以创建，kylin里面可以创建多个project，有效的把各

2017-11-02 17:11:39 10908

原创 Kylin介绍

Kylin是ebay开发的一套OLAP系统，与Mondrian不同的是，它是一个MOLAP系统，主要用于支持大数据生态圈的数据分析业务，它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中（目前还仅支持hbase），这段时间对mondrian和kylin都进行了使用，发现这两个系统是时间和空间的一个权衡吧，mondrian是一个ROLAP系统，所有的查询可以通过实时的数据库查询完成，而

2017-11-01 18:56:03 1153

原创 MySQL数据库中的哈希加密

数据库安全是数据库中最为重要的环节，只有确保了数据库中数据的安全，才能够更好的发挥数据库的功能，本文将为大家介绍一种很好的数据库加密方法，即哈希加密。导读：MySQL数据库加密的方法有很多种，不同的加密方法对应着不同的情况，本文介绍的数据库加密方法----哈希加密，对数据库保存的敏感数据有较好的数据库保护性。哈希加密如果数据库保存了敏感的数据，如银行卡密码

2017-11-01 14:48:00 5999

proxifier for Mac（含注册码、使用图解）

Proxifier是一款功能非常强大的socks5客户端，可以让不支持通过代理服务器工作的网络程序能通过HTTPS或SOCKS代理或代理链。本资源是proxifier for Mac（含注册码、使用图解）

2019-01-15

Oracle11g-64bit客户端免绿色安装版

Oracle11g-64bit客户端绿色免安装版，解压之后配置plsql的oci路径，直接使用

2017-12-18

Linux下安装Oracle11g服务器(详细图解)

2016-07-04

oracle oracle 11g体系结构图

oracle 11g体系结构图

2016-07-04

Oracle_OCP_11G_题库-中文版

OCP：Oracle数据库认证专家（Oracle Certified Professional）是Oracle公司的Oracle数据库DBA（Database Administrator 数据库管理员)认证课程，通过这个考试，说明此人可以管理大型数据库，或者能够开发可以部署到整个企业的强大应用。要成为OCP需要先获得OCA (Oracle数据库认证助理Oracle Certified Associate)的认证，目前主要是Oracle 11g版本认证。

2016-02-26

Visual_C++MFC入门教程

2013-11-01

车流检测与跟踪

对车流检测与跟踪技术进行概述，研究其实现方法

2011-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人