DataFlow范式-CSDN博客

原创问题以及解决办法：hadoop 不在 sudoers 文件中。此事将被报告

问题来源：我们使用sudo命令，让hadoop用户使用root身份执行命令时报错：[hadoop@mydocker ~]$ sudo date[sudo] password for hadoop: hadoop 不在 sudoers 文件中。此事将被报告。可以看到hadoop用户没有权限使用sudo命令以root身份执行命令。解决方法：打开终端，先以root身份登录，然后执行如下命令：visudo

2016-09-12 21:43:27 6667 1

原创 Presto必知必会

1. 概述Presto是一个分布式SQL查询引擎，用于查询分布在一个或多个不同数据源中的大数据集。 Presto通过使用分布式查询，可以快速高效的完成海量数据的查询。如果你需要处理TB或者PB级别的数据，那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理。作为Hive和Pig（Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询）的替代者，Presto

2016-09-07 17:07:12 22158 1

原创 Apache Phoenix的子查询

Phoenix现在支持在WHERE 和FROM 中使用子查询。子查询可以被指定在很多地方，比如 IN/NOT IN, EXISTS/NOTEXISTS等。Subqueries with INor NOT IN与传统数据库一样，例如：SELECT ItemNameFROM Items WHERE ItemID IN (SELECT ItemID FROM Orders WHE

2016-09-04 12:08:22 3070

原创 Apache Phoenix的Join操作和优化

估计Phoenix中支持Joins，对很多使用HBase的朋友来说，还是比较好的。下面我们就来演示一下。首先看一下几张表的数据：Orders表： OrderID CustomerID ItemID Quantity Date 1630781 C004 I001 650 09-01-2013 1630782 C003 I006 2500 09-02-2013

2016-09-03 16:35:37 12148 4

原创 Apache Phoenix的序列

序列作为标准SQL特性，允许生成递增的序列并应用在典型的ID中。为了创建一个序列，可以使用：0:jdbc:phoenix:SZB-L0023780:2181:/hbase114> CREATE SEQUENCE my_sequence;这将创建一个序列，初始化值为1，步长大小为1，序列生成器的值达到限制值后不循环，缓存定义存放序列的100个值（此值由phoenix.sequence.cacheSi

2016-09-02 15:51:24 1545

原创 Apache Phoenix的Array类型

Apache Phoenix支持JDBC ARRAY类型，任何原生的数据类型就可以在ARRAY中使用。下面我介绍一下在创建的表中使用ARRAY类型。先看一下创建表的SQL语句：CREATE TABLE regions ( region_name VARCHAR, zips VARCHAR ARRAY[10],CONSTRAINT pk PRIMARY KEY (region_name)

2016-09-01 17:31:52 2315

原创 Apache Phoenix数据类型

数据类型 Java Map 占用大小 (byte) 范围 INTEGER java.lang.Integer 4 -2147483648 to 2147483647 UNSIGNED_INT java.lang.Integer 4 0 to 2147483647 BIGINT java.lang.Long 8 -922337203685477580

2016-09-01 16:12:32 3877

原创 Apache Phoenix基本操作(2)

1. 如何映射一个Phoenix的表到一个HBase的表？你可以通过Create table/create view DDL语句在一个已经存在的HBase表上创建一个Phoenix表或者视图。对于Createtable来说，我们将创建任何元数据(表，列族)，这些之前都是不存在的。我们也将对于每行记录添加一个空的key值，以便查询时按照我们的方式（不需要在scan过程中对所有的列进行投影）

2016-08-31 18:37:27 12302

原创 Apache Phoenix基本操作(1)

上一篇博客：http://phoenix.apache.org/installation.html，我们已经将phoenix部署好了，并且测试都没有问题。本篇我们将介绍phoenix的一些基本操作。1. 如何使用Phoenix输出Hello World？1.1 使用sqlline终端命令sqlline.py SZB-L0023780:2181:/hbase1140:jdbc:phoe

2016-08-30 18:28:02 4325

原创 Apache Phoenix部署和测试

Apache Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBCAPI代替HBase客户端API来创建表，插入数据，查询你的HBase数据。为了你更好更快地了解Apache Phoenix，官方给出了15分钟快速了解Apache Phoenix的文档说明：http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html

2016-08-30 16:46:45 5800

原创优化Hadoop Balancer平衡的速度

之前我在博客中介绍了HDFS的Block数据balancer重分布实战内容：http://blog.csdn.net/jiangshouzhuang/article/details/51879102 本篇文章我们再来简单介绍一下优化Hadoop Balancer平衡的速度涉及到的几个重要参数。1. dfs.datanode.max.transfer.threads修改dfs.datanode.m

2016-08-30 11:19:04 5672

原创 HBase客户端访问超时原因及参数优化

默认的HBase客户端的参数配置是没有做过优化的，所以对于低延时响应的HBase集群，需要对客户端的参数进行优化。1. hbase.rpc.timeout以毫秒计算的所有HBase RPC超时，默认为60s。该参数表示一次RPC请求的超时时间。如果某次RPC时间超过该值，客户端就会主动关闭socket。如果经常出现java.io.IOException: Connection rese

2016-08-29 18:53:28 24223

原创 HBase性能优化

背景 hbase主集群在生产环境已稳定运行有1年半时间，最大的单表region数已达7200多个，每天新增入库量就有百亿条，对hbase的认识经历了懵懂到熟的过程。为了应对业务数据的压力，hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库，为及早发现集群中的问题，还开发了一套对hbase集群服务和应用全面监控的报警系统。总结下hbase优化(针对0.94版本)方面的一些经验也

2016-08-29 16:58:07 2156

原创使用Hive自定义函数生成UUID随机字符串函数

package com.zy.hive.udf;import java.util.UUID;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.udf.UDFType;import org.apache

2016-08-26 15:56:24 9100

原创格式化和验证Hadoop，Spark等xml配置文件的工具xmllint

从事Hadoop，HBase，Spark等大数据相关工作的朋友都知道，我们部署大数据平台时，经常会配置xml文件，但是往往配置的参数比较乱，而且有可能格式也会配置错误，所以希望能有一个工具能够帮助我们对于xml文件进行格式化和验证正确性。xmllint便是一个很方便的处理及验证xml的工具，linux下只要安装libxml2就可以使用这个命令，而且一般Linux默认已经部署libxml2了。查看安

2016-08-24 11:39:56 1946

原创新一代Hive客户端工具：Beeline

Hive客户端工具后续将使用Beeline 替代HiveCLI ，并且后续版本也会废弃掉HiveCLI 客户端工具。 Beeline是Hive新的命令行客户端工具。Beeline是从 Hive 0.11版本引入的。 HiveServer2 支持一个新的命令行Shell，称为Beeline，它是基于SQLLine CLI的JDBC客户端。Beeline支持嵌入模式(embedded mode)和远程

2016-08-17 10:24:11 25696 2

原创 ElasticSearch第7课之kibana插件安装和简单演示

介绍 Kibana是一个与Elasticsearch一起工作的开源的分析和可视化平台。你可以使用Kibana进行搜索、查看并与存储在elasticsearch索引的数据进行交互操作。你也可以使用kibana执行高级的数据分析，并能以图表、表格和地图的形式查看数据。通过Kibana使得理解大容量的数据变得非常容易。它非常简单，基于浏览器的接口使我们能够快速的创建和

2016-08-16 22:04:20 9247 3

原创 ElasticSearch第6课之ElasticSearch插件elasticsearch-head安装部署和使用

elasticsearch-head是一个界面化的集群操作和管理工具，可以对集群进行傻瓜式操作。你可以通过插件把它集成到ES（首选方式），也可以安装成一个独立webapp。elasticsearch-head主要有以下方面的操作（官网）：显示集群的拓扑，并且能够执行索引和节点级别操作搜索接口能够查询集群中原始json或表格格式的检索数据能够快速访问并显示集群的状态有一个输入窗口，允许任意调

2016-08-13 18:28:07 3158

原创 ElasticSearch第5课之REST API

REST API既然Elasticsearch的节点已经正常运行了，我们开始与Elasticsearch进行交互。Elasticsearch提供了一个非常强大的REST API，我们可以通过它与集群进行交互。我们可以通过REST API可以做一些事情：1. 检查集群，节点和索引的健康，状态，以及统计信息2. 管理集群，节点和索引数据，元数据3. 执行CRUD（create,read,update

2016-08-12 17:14:15 1309

原创 ElasticSearch第4课之ES 2.3.X部分配置项详解

#集群名称cluster.name: IIoveZhangYun# ----------------------------------- Node ------------------------------------#节点名称，ES启动时会自动创建节点名称，也可进行配置node.name: node-1#每个节点都可以定义一些与之关联的通用属性，用于后期集群进行碎片分配时的过滤node.ra

2016-08-12 15:59:27 1967

原创 MySQL学习笔记第10课（共10课）

43、非常实用的MySQL语句1. 计算年数你想通过生日来计算这个人有几岁了。SELECTDATE_FORMAT(FROM_DAYS(TO_DAYS(now()) - TO_DAYS(@dateofbirth)), '%Y') + 0;SELECT DATE_FORMAT(FROM_DAYS(TO_DAYS(now())- TO_DAYS('1987-02-28 14:23:56')),'%Y')

2016-08-11 22:32:28 923

原创 MySQL学习笔记第9课（共10课）

40、复制一种高可用、高性能的解决方案，一般用来建立大型的应用。三个步骤：（1）主服务器把数据更新记录到二进制日志中（2）从服务器把主服务器的二进制日志拷贝到自己的中继日志中（3）从服务器重做日志中的时间，把更新应用到自己的数据库上MySQL的复制是异步同步的，并非完全的主从同步。从服务器上可以启动read-only选项：[mysqld]read-only快照+复制的备份架构 41、性能调优（1）

2016-08-11 22:28:33 4431

原创 MySQL学习笔记第8课（共10课）

36、备份与恢复根据备份的方法：Hot Backup热备Cold Backup冷备Warm Backup温备根据备份后的文件内容：逻辑备份：备份后的文件内容是可读的，通常是文本文件，内容一般是SQL语句，或者表内实际的数据，如mysqldump和select … into outfile的方法。好处是可以看到导出的内容，一般适合于的升级、迁移等工作，但是恢复所需要的时间比较长。裸文件备份：指拷贝数

2016-08-11 22:23:05 9020

原创 MySQL学习笔记第7课（共10课）

34、分布式事务InnoDB存储引擎支持XA事务，通过ＸＡ事务可以用来支持分布式事务的实现。InnoDB存储引擎的事务隔离级别必须设置为Serialiable。XA事务允许不同数据库之间的分布式事务（MySQL,Oracle,SQL Server），在银行系统的转账中比较常见。参数innodb_support_xa可以通过查看是否启动了XA事务支持（默认为ON）：mysql> showvariab

2016-08-11 22:17:11 2480

原创 ElasticSearch第3课之基本安装和简单操作

安装Elasticsearch的话，至少需要Java 7，推荐使用Oracle的JDK 1.8.0_73版本，安装比较简单，请参考http://docs.oracle.com/javase/8/docs/technotes/guides/install/install_overview.html。 Java安装并配置环境变量后，请执行java –version查看版本号，确保没有问题。

2016-08-10 18:21:26 1042

原创 Greenplum中Heap表膨胀查看和解决方案

在某些情况下，因为底层存储架构的原因，Greenplum的Heap表很容易出现膨胀(Bloat)。Bloat会影响表的扫描性能，从而影响查询性能。1. 什么是表膨胀？表膨胀是指在一张表的数据文件中积累的自由空间(free space)被旧数据行使用。这些空间已经被之前删除或者不再访问的数据使用。不能做表的维护以重用这些空间，导致表数据文件越来越大，所以表扫描需要更长的时间。2.

2016-08-10 14:19:21 4761

原创 ElasticSearch第2课之核心概念介绍

我们对Elasticsearch的核心概念进行介绍。1. NearRealtime(NRT)：准实时Elasticsearch是一个准实时的搜索平台，这意味着当你索引一个文档（document ）时，在细微的延迟（通常1s）之后，该文件才能被搜索到。 2. Cluster：集群一个集群是一个或多个nodes（servers）的集合，一起保存整个数据，并且提供从所有nodes

2016-08-09 18:29:38 1229

原创 ElasticSearch第1课之基本介绍

从今天开始每1-2天都会和朋友们分享ElasticSearch的相关内容，分享自己实际项目中的应用，希望感兴趣的朋友多多关注和指导。ElasticSearch是一个基于Lucene构建的开源的分布式搜索和分析引擎，具备高可靠性和扩展性。它允许你快速准实时存储，搜索和分析海量数据。它通常作为底层引擎/计算来驱动企业级复杂搜索特性和需求。下面列举一些使用ElasticSearch的应用场景：l 运行

2016-08-09 15:33:18 1039

原创一个根据所给资源自动配置CDH中Hadoop等参数的工具

分享一个根据所给内存，CPU等资源，自动配置Hadoop等参数的工具。假设Python的名字为：cdh_auto_configuration.py，完整内容如下：#!/usr/bin/env pythonimport optparsefrom pprint import pprintimport loggingimport sysimport mathimport ast''' Reserved

2016-08-09 09:52:46 1575

原创 MySQL学习笔记第6课（共10课）

31、隐形提交的SQL语句以下的SQL语句会产生一个隐式的提交操作，即执行语句后，会有一个隐式的COMMIT操作。另外注意的是，Truncate table语句是DDL，因此虽然和Delete整张表的结果是一样的，但是它不能被回滚。 32、对于事务操作的统计考虑每秒事务处理的能力：TPS transaction per secondTPS的计算方法：(com_commit+com_rollback

2016-08-08 21:18:37 1683

原创 Spark2.0.0集群环境部署（Spark On Yarn）

Spark 2.0.0发布已经有一段时间了，目前公司生产环境还是使用1.6系列版本。为了测试Spark 2.0.0各方面的稳定性和计算性能，我基于CDH集群环境，搭建了Spark On Yarn集群环境。环境信息： CDH版本：CDH-5.7.0 其中，Hadoop版本：2.6.0 Java版本：1.7.0_80

2016-08-08 18:05:46 13578 8

原创 MySQL学习笔记第5课（共10课）

27、阻塞当一个资源已被一个事务占有时，另一个事务执行mutex_enter函数会发生等待，这个就是阻塞。阻塞并不是一件坏事，阻塞是为了保证事务可以并发且正常运行。在InnoDB存储引擎中，参数innodb_lock_wait_timeout用来控制等待的时间（默认是50s）。mysql> select@@innodb_lock_wait_timeout;+-------------------

2016-08-07 21:22:58 2592 5

原创 MySQL学习笔记第4课（共10课）

25、InnoDB存储引擎索引和算法InnoDB存储引擎支持两种常见的索引，一种是B+树索引，另一种是哈希索引。而且InnoDB存储引擎支持的哈希索引是自适应的。B+树索引是目前关系型数据库系统中最常用，最有效的索引。B+树中的B不是代表二叉（binary），而是代表平衡（balance）。B+树索引并不能找到一个给定键值的具体行。B+树索引能找到的只是被查找数据行所在的页。然后数据库通过把页读入

2016-08-07 09:48:53 1173

原创 MySQL学习笔记第3课（共10课）

20、分区表MySQL数据库支持的分区类型为水平分区，并不支持垂直分区，此外MySQL数据库的分区是局部分区索引，一个分区中即存放了数据又存放了索引。分区主要用于高可用性，利于数据库的管理。在OLTP应用中，对于分区的使用应该小心。水平分区：指同一表中不同行的记录分配到不同的物理文件中。查看当前数据库是否开启了分区功能：mysql> showvariables like '%partition%'

2016-08-06 11:38:40 1315

原创 Hive入门培训

Hive数据类型基础数据类型：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。复杂数据类型：包括ARRAY(数组),MAP(字典),STRUCT(结构体),UNION(联合体)，这些复杂类型是由基础类型组成的。 ARRAY：ARRAY类型是由一系列相

2016-08-05 15:22:18 2314

原创 MySQL学习笔记第2课（共10课）

10、InnoDB存储引擎文件（1）表空间文件InnoDB存储引擎，将存储的数据按照表空间进行存放。默认配置下，会有一个初始化大小的10MB，名为ibdata1的文件。该文件就是默认是表空间文件，可以通过参数innodb_data_file_path对其设置。innodb_data_file_path = /home/mysql/data/ibdata1:10000M:/home/mysql/da

2016-08-02 19:25:33 1049

原创 MySQL学习笔记第1课（共10课）

这里抽时间和朋友们分享一下我以前学习MySQL总结的一些笔记，本来总结的文档有100多页，现在每天整理一点分享给大家。1、MySQL常用命令序号命令解释1SHOW CHARACTER SET显示所有可用的字符集2SHOW COLLATION显示所有可用的字符校对3SHOW DATABASES显示服务器主机上的数据库4SHOW CREATE DATABASE显示数据库定义5SHOW TABLES显示

2016-08-02 19:06:00 1128

原创 Hive On Spark执行计划总结

1、 Hive on Spark EXPLAIN statement在Hive中，命令Explain可以用来查看查询的执行计划。对于Hive on Spark，这个命令本身不会改变，还会表现的和以前一样。它仍然会显示依赖语法树和每个stage阶段的执行计划。然后，如果hive.execution.engine设置为spark，它将代替默认的MapReduce的查询引擎，而是显示Spark查询引擎

2016-07-28 10:11:23 5209 1

原创 cloudera-manager-el6-cm5.7.0版本启动Agent失败的问题解决

我们在部署完CDH 5.7.0和CM 5.7.0后，开始启动CM Agent，但是会出现下面的错误：# cloudera-scm-agent startStarting cloudera-scm-agent: [FAILED][root@cdha parcels]# cat /opt/cloudera-manager/cm-5.7.0/

2016-07-25 08:58:41 13184

原创 Greenplum对新增节点扩展Segments实战

一、环境信息：Greenplum版本号：Greenplum Version: 'postgres (GreenplumDatabase) 4.3.8.2 build 1' GP扩展Segment之前的环境信息：9个节点，其中：1个Master节点1个Standby Master节点7个Segment节点，每个Segment上面有两个Primary实例，两个Mirror实例二、下面开始介绍在现有G

2016-07-21 11:08:22 8554

ERWin建模软件

eclipse.006

eclipse.003

eclipse-jee-kepler-SR2-win32.zip.002

eclipse-jee-kepler-SR2-win32

Unix shell

mysql的安装

wxpython python开发图形界面

学习wxpython开发图形界面

Shell.Scripts-101.Scripts.for.Linux

LVS 综合下载 共享

空空如也

LVS 综合下载共享