自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

DataFlow范式

透过技术圈百态,体会世间冷暖,树立正确的技术观、人生观、价值观和世界观

  • 博客(340)
  • 资源 (11)
  • 收藏
  • 关注

原创 问题以及解决办法:hadoop 不在 sudoers 文件中。此事将被报告

问题来源:我们使用sudo命令,让hadoop用户使用root身份执行命令时报错:[hadoop@mydocker ~]$ sudo date[sudo] password for hadoop: hadoop 不在 sudoers 文件中。此事将被报告。可以看到hadoop用户没有权限使用sudo命令以root身份执行命令。解决方法:打开终端,先以root身份登录,然后执行如下命令:visudo

2016-09-12 21:43:27 6667 1

原创 Presto必知必会

1.      概述Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。 Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。如果你需要处理TB或者PB级别的数据,那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理。作为Hive和Pig(Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询)的替代者,Presto

2016-09-07 17:07:12 22158 1

原创 Apache Phoenix的子查询

Phoenix现在支持在WHERE 和FROM 中使用子查询。子查询可以被指定在很多地方,比如 IN/NOT IN, EXISTS/NOTEXISTS等。Subqueries with INor NOT IN与传统数据库一样,例如:SELECT ItemNameFROM Items WHERE ItemID IN     (SELECT ItemID     FROM Orders     WHE

2016-09-04 12:08:22 3070

原创 Apache Phoenix的Join操作和优化

估计Phoenix中支持Joins,对很多使用HBase的朋友来说,还是比较好的。下面我们就来演示一下。首先看一下几张表的数据:Orders表: OrderID CustomerID ItemID Quantity Date 1630781 C004 I001 650 09-01-2013 1630782 C003 I006 2500 09-02-2013

2016-09-03 16:35:37 12148 4

原创 Apache Phoenix的序列

序列作为标准SQL特性,允许生成递增的序列并应用在典型的ID中。为了创建一个序列,可以使用:0:jdbc:phoenix:SZB-L0023780:2181:/hbase114> CREATE SEQUENCE my_sequence;这将创建一个序列,初始化值为1,步长大小为1,序列生成器的值达到限制值后不循环,缓存定义存放序列的100个值(此值由phoenix.sequence.cacheSi

2016-09-02 15:51:24 1545

原创 Apache Phoenix的Array类型

Apache Phoenix支持JDBC ARRAY类型,任何原生的数据类型就可以在ARRAY中使用。下面我介绍一下在创建的表中使用ARRAY类型。 先看一下创建表的SQL语句:CREATE TABLE regions (    region_name VARCHAR,   zips VARCHAR ARRAY[10],CONSTRAINT pk PRIMARY KEY (region_name)

2016-09-01 17:31:52 2315

原创 Apache Phoenix数据类型

数据类型 Java Map 占用大小 (byte) 范围 INTEGER java.lang.Integer 4 -2147483648 to 2147483647 UNSIGNED_INT java.lang.Integer 4 0 to 2147483647 BIGINT java.lang.Long 8 -922337203685477580

2016-09-01 16:12:32 3877

原创 Apache Phoenix基本操作(2)

1.      如何映射一个Phoenix的表到一个HBase的表?你可以通过Create table/create view DDL语句在一个已经存在的HBase表上创建一个Phoenix表或者视图。对于Createtable来说,我们将创建任何元数据(表,列族),这些之前都是不存在的。我们也将对于每行记录添加一个空的key值,以便查询时按照我们的方式(不需要在scan过程中对所有的列进行投影)

2016-08-31 18:37:27 12302

原创 Apache Phoenix基本操作(1)

上一篇博客:http://phoenix.apache.org/installation.html,我们已经将phoenix部署好了,并且测试都没有问题。本篇我们将介绍phoenix的一些基本操作。1.      如何使用Phoenix输出Hello World?1.1   使用sqlline终端命令sqlline.py SZB-L0023780:2181:/hbase1140:jdbc:phoe

2016-08-30 18:28:02 4325

原创 Apache Phoenix部署和测试

Apache Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBCAPI代替HBase客户端API来创建表,插入数据,查询你的HBase数据。 为了你更好更快地了解Apache Phoenix,官方给出了15分钟快速了解Apache Phoenix的文档说明:http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html

2016-08-30 16:46:45 5800

原创 优化Hadoop Balancer平衡的速度

之前我在博客中介绍了HDFS的Block数据balancer重分布实战内容:http://blog.csdn.net/jiangshouzhuang/article/details/51879102 本篇文章我们再来简单介绍一下优化Hadoop Balancer平衡的速度涉及到的几个重要参数。1.  dfs.datanode.max.transfer.threads修改dfs.datanode.m

2016-08-30 11:19:04 5672

原创 HBase客户端访问超时原因及参数优化

默认的HBase客户端的参数配置是没有做过优化的,所以对于低延时响应的HBase集群,需要对客户端的参数进行优化。1.      hbase.rpc.timeout以毫秒计算的所有HBase RPC超时,默认为60s。该参数表示一次RPC请求的超时时间。如果某次RPC时间超过该值,客户端就会主动关闭socket。 如果经常出现java.io.IOException: Connection rese

2016-08-29 18:53:28 24223

原创 HBase性能优化

背景      hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对hbase集群服务和应用全面监控的报警系统。总结下hbase优化(针对0.94版本)方面的一些经验也

2016-08-29 16:58:07 2156

原创 使用Hive自定义函数生成UUID随机字符串函数

package com.zy.hive.udf;import java.util.UUID;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.udf.UDFType;import org.apache

2016-08-26 15:56:24 9100

原创 格式化和验证Hadoop,Spark等xml配置文件的工具xmllint

从事Hadoop,HBase,Spark等大数据相关工作的朋友都知道,我们部署大数据平台时,经常会配置xml文件,但是往往配置的参数比较乱,而且有可能格式也会配置错误,所以希望能有一个工具能够帮助我们对于xml文件进行格式化和验证正确性。xmllint便是一个很方便的处理及验证xml的工具,linux下只要安装libxml2就可以使用这个命令,而且一般Linux默认已经部署libxml2了。查看安

2016-08-24 11:39:56 1946

原创 新一代Hive客户端工具:Beeline

Hive客户端工具后续将使用Beeline 替代HiveCLI ,并且后续版本也会废弃掉HiveCLI 客户端工具。 Beeline是Hive新的命令行客户端工具。Beeline是从 Hive 0.11版本引入的。 HiveServer2 支持一个新的命令行Shell,称为Beeline,它是基于SQLLine CLI的JDBC客户端。Beeline支持嵌入模式(embedded mode)和远程

2016-08-17 10:24:11 25696 2

原创 ElasticSearch第7课之kibana插件安装和简单演示

介绍         Kibana是一个与Elasticsearch一起工作的开源的分析和可视化平台。你可以使用Kibana进行搜索、查看并与存储在elasticsearch索引的数据进行交互操作。你也可以使用kibana执行高级的数据分析,并能以图表、表格和地图的形式查看数据。          通过Kibana使得理解大容量的数据变得非常容易。它非常简单,基于浏览器的接口使我们能够快速的创建和

2016-08-16 22:04:20 9247 3

原创 ElasticSearch第6课之ElasticSearch插件elasticsearch-head安装部署和使用

elasticsearch-head是一个界面化的集群操作和管理工具,可以对集群进行傻瓜式操作。你可以通过插件把它集成到ES(首选方式),也可以安装成一个独立webapp。elasticsearch-head主要有以下方面的操作(官网): 显示集群的拓扑,并且能够执行索引和节点级别操作 搜索接口能够查询集群中原始json或表格格式的检索数据 能够快速访问并显示集群的状态 有一个输入窗口,允许任意调

2016-08-13 18:28:07 3158

原创 ElasticSearch第5课之REST API

REST API既然Elasticsearch的节点已经正常运行了,我们开始与Elasticsearch进行交互。Elasticsearch提供了一个非常强大的REST API,我们可以通过它与集群进行交互。 我们可以通过REST API可以做一些事情:1. 检查集群,节点和索引的健康,状态,以及统计信息2. 管理集群,节点和索引数据,元数据3. 执行CRUD(create,read,update

2016-08-12 17:14:15 1309

原创 ElasticSearch第4课之ES 2.3.X部分配置项详解

#集群名称cluster.name: IIoveZhangYun# ----------------------------------- Node ------------------------------------#节点名称,ES启动时会自动创建节点名称,也可进行配置node.name: node-1#每个节点都可以定义一些与之关联的通用属性,用于后期集群进行碎片分配时的过滤node.ra

2016-08-12 15:59:27 1967

原创 MySQL学习笔记第10课(共10课)

43、非常实用的MySQL语句1. 计算年数你想通过生日来计算这个人有几岁了。SELECTDATE_FORMAT(FROM_DAYS(TO_DAYS(now()) - TO_DAYS(@dateofbirth)), '%Y') + 0;SELECT DATE_FORMAT(FROM_DAYS(TO_DAYS(now())- TO_DAYS('1987-02-28 14:23:56')),'%Y')

2016-08-11 22:32:28 923

原创 MySQL学习笔记第9课(共10课)

40、复制一种高可用、高性能的解决方案,一般用来建立大型的应用。三个步骤:(1)主服务器把数据更新记录到二进制日志中(2)从服务器把主服务器的二进制日志拷贝到自己的中继日志中(3)从服务器重做日志中的时间,把更新应用到自己的数据库上MySQL的复制是异步同步的,并非完全的主从同步。从服务器上可以启动read-only选项:[mysqld]read-only快照+复制的备份架构 41、性能调优(1)

2016-08-11 22:28:33 4431

原创 MySQL学习笔记第8课(共10课)

36、备份与恢复根据备份的方法:Hot Backup热备Cold Backup冷备Warm Backup温备根据备份后的文件内容:逻辑备份:备份后的文件内容是可读的,通常是文本文件,内容一般是SQL语句,或者表内实际的数据,如mysqldump和select … into outfile的方法。好处是可以看到导出的内容,一般适合于的升级、迁移等工作,但是恢复所需要的时间比较长。裸文件备份:指拷贝数

2016-08-11 22:23:05 9020

原创 MySQL学习笔记第7课(共10课)

34、分布式事务InnoDB存储引擎支持XA事务,通过XA事务可以用来支持分布式事务的实现。InnoDB存储引擎的事务隔离级别必须设置为Serialiable。XA事务允许不同数据库之间的分布式事务(MySQL,Oracle,SQL Server),在银行系统的转账中比较常见。参数innodb_support_xa可以通过查看是否启动了XA事务支持(默认为ON):mysql> showvariab

2016-08-11 22:17:11 2480

原创 ElasticSearch第3课之基本安装和简单操作

安装Elasticsearch的话,至少需要Java 7,推荐使用Oracle的JDK 1.8.0_73版本,安装比较简单,请参考http://docs.oracle.com/javase/8/docs/technotes/guides/install/install_overview.html。     Java安装并配置环境变量后,请执行java –version查看版本号,确保没有问题。

2016-08-10 18:21:26 1042

原创 Greenplum中Heap表膨胀查看和解决方案

在某些情况下,因为底层存储架构的原因,Greenplum的Heap表很容易出现膨胀(Bloat)。Bloat会影响表的扫描性能,从而影响查询性能。1.      什么是表膨胀?表膨胀是指在一张表的数据文件中积累的自由空间(free space)被旧数据行使用。这些空间已经被之前删除或者不再访问的数据使用。不能做表的维护以重用这些空间,导致表数据文件越来越大,所以表扫描需要更长的时间。2.

2016-08-10 14:19:21 4761

原创 ElasticSearch第2课之核心概念介绍

我们对Elasticsearch的核心概念进行介绍。1.       NearRealtime(NRT):准实时Elasticsearch是一个准实时的搜索平台,这意味着当你索引一个文档(document )时,在细微的延迟(通常1s)之后,该文件才能被搜索到。 2.       Cluster:集群一个集群是一个或多个nodes(servers)的集合,一起保存整个数据,并且提供从所有nodes

2016-08-09 18:29:38 1229

原创 ElasticSearch第1课之基本介绍

从今天开始每1-2天都会和朋友们分享ElasticSearch的相关内容,分享自己实际项目中的应用,希望感兴趣的朋友多多关注和指导。ElasticSearch是一个基于Lucene构建的开源的分布式搜索和分析引擎,具备高可靠性和扩展性。它允许你快速准实时存储,搜索和分析海量数据。它通常作为底层引擎/计算来驱动企业级复杂搜索特性和需求。下面列举一些使用ElasticSearch的应用场景:l  运行

2016-08-09 15:33:18 1039

原创 一个根据所给资源自动配置CDH中Hadoop等参数的工具

分享一个根据所给内存,CPU等资源,自动配置Hadoop等参数的工具。假设Python的名字为:cdh_auto_configuration.py,完整内容如下:#!/usr/bin/env pythonimport optparsefrom pprint import pprintimport loggingimport sysimport mathimport ast''' Reserved

2016-08-09 09:52:46 1575

原创 MySQL学习笔记第6课(共10课)

31、隐形提交的SQL语句以下的SQL语句会产生一个隐式的提交操作,即执行语句后,会有一个隐式的COMMIT操作。另外注意的是,Truncate table语句是DDL,因此虽然和Delete整张表的结果是一样的,但是它不能被回滚。 32、对于事务操作的统计考虑每秒事务处理的能力:TPS transaction per secondTPS的计算方法:(com_commit+com_rollback

2016-08-08 21:18:37 1683

原创 Spark2.0.0集群环境部署(Spark On Yarn)

Spark 2.0.0发布已经有一段时间了,目前公司生产环境还是使用1.6系列版本。为了测试Spark 2.0.0各方面的稳定性和计算性能,我基于CDH集群环境,搭建了Spark On Yarn集群环境。         环境信息:         CDH版本:CDH-5.7.0                   其中,Hadoop版本:2.6.0         Java版本:1.7.0_80

2016-08-08 18:05:46 13578 8

原创 MySQL学习笔记第5课(共10课)

27、阻塞当一个资源已被一个事务占有时,另一个事务执行mutex_enter函数会发生等待,这个就是阻塞。阻塞并不是一件坏事,阻塞是为了保证事务可以并发且正常运行。 在InnoDB存储引擎中,参数innodb_lock_wait_timeout用来控制等待的时间(默认是50s)。mysql> select@@innodb_lock_wait_timeout;+-------------------

2016-08-07 21:22:58 2592 5

原创 MySQL学习笔记第4课(共10课)

25、InnoDB存储引擎索引和算法InnoDB存储引擎支持两种常见的索引,一种是B+树索引,另一种是哈希索引。而且InnoDB存储引擎支持的哈希索引是自适应的。B+树索引是目前关系型数据库系统中最常用,最有效的索引。B+树中的B不是代表二叉(binary),而是代表平衡(balance)。B+树索引并不能找到一个给定键值的具体行。B+树索引能找到的只是被查找数据行所在的页。然后数据库通过把页读入

2016-08-07 09:48:53 1173

原创 MySQL学习笔记第3课(共10课)

20、分区表MySQL数据库支持的分区类型为水平分区,并不支持垂直分区,此外MySQL数据库的分区是局部分区索引,一个分区中即存放了数据又存放了索引。分区主要用于高可用性,利于数据库的管理。在OLTP应用中,对于分区的使用应该小心。水平分区:指同一表中不同行的记录分配到不同的物理文件中。查看当前数据库是否开启了分区功能:mysql> showvariables like '%partition%'

2016-08-06 11:38:40 1315

原创 Hive入门培训

Hive数据类型基础数据类型:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。复杂数据类型:包括ARRAY(数组),MAP(字典),STRUCT(结构体),UNION(联合体),这些复杂类型是由基础类型组成的。 ARRAY:ARRAY类型是由一系列相

2016-08-05 15:22:18 2314

原创 MySQL学习笔记第2课(共10课)

10、InnoDB存储引擎文件(1)表空间文件InnoDB存储引擎,将存储的数据按照表空间进行存放。默认配置下,会有一个初始化大小的10MB,名为ibdata1的文件。该文件就是默认是表空间文件,可以通过参数innodb_data_file_path对其设置。innodb_data_file_path = /home/mysql/data/ibdata1:10000M:/home/mysql/da

2016-08-02 19:25:33 1049

原创 MySQL学习笔记第1课(共10课)

这里抽时间和朋友们分享一下我以前学习MySQL总结的一些笔记,本来总结的文档有100多页,现在每天整理一点分享给大家。1、MySQL常用命令序号命令解释1SHOW CHARACTER SET显示所有可用的字符集2SHOW COLLATION显示所有可用的字符校对3SHOW DATABASES显示服务器主机上的数据库4SHOW CREATE DATABASE显示数据库定义5SHOW TABLES显示

2016-08-02 19:06:00 1128

原创 Hive On Spark执行计划总结

1、  Hive on Spark EXPLAIN statement在Hive中,命令Explain可以用来查看查询的执行计划。对于Hive on Spark,这个命令本身不会改变,还会表现的和以前一样。它仍然会显示依赖语法树和每个stage阶段的执行计划。然后,如果hive.execution.engine设置为spark,它将代替默认的MapReduce的查询引擎,而是显示Spark查询引擎

2016-07-28 10:11:23 5209 1

原创 cloudera-manager-el6-cm5.7.0版本启动Agent失败的问题解决

我们在部署完CDH 5.7.0和CM 5.7.0后,开始启动CM Agent,但是会出现下面的错误:# cloudera-scm-agent  startStarting cloudera-scm-agent:                               [FAILED][root@cdha parcels]# cat /opt/cloudera-manager/cm-5.7.0/

2016-07-25 08:58:41 13184

原创 Greenplum对新增节点扩展Segments实战

一、环境信息:Greenplum版本号:Greenplum Version: 'postgres (GreenplumDatabase) 4.3.8.2 build 1' GP扩展Segment之前的环境信息:9个节点,其中:1个Master节点1个Standby Master节点7个Segment节点,每个Segment上面有两个Primary实例,两个Mirror实例 二、下面开始介绍在现有G

2016-07-21 11:08:22 8554

ERWin建模软件

2014年6月13号下载的ERWin建模软件

2014-06-13

eclipse.006

eclipse-jee-kepler-SR2-win32.zip.006

2014-05-11

eclipse.003

eclipse-jee-kepler-SR2-win32.zip

2014-05-11

eclipse-jee-kepler-SR2-win32.zip.002

eclipse-jee-kepler-SR2-win32.zip.002

2014-05-11

eclipse-jee-kepler-SR2-win32

eclipse-jee-kepler-SR2-win32 软件包

2014-05-11

Unix shell

Unix Shell 非常好的资料 jiangshouzhuang is a good boy!

2012-08-01

mysql的安装

mysql在多操作系统上面的的安装过程以及一些知识的介绍,

2012-07-04

wxpython python开发图形界面

wxpython python开发图形界面

2012-05-29

学习wxpython开发图形界面

wxpython 学习wxpython开发图形界面

2012-05-29

Shell.Scripts-101.Scripts.for.Linux

Linux shell for everyone

2012-05-02

LVS 综合下载 共享

LVS 综合下载 共享

2011-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除