自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 资源 (2)
  • 收藏
  • 关注

转载 xshell设置缓冲区大小保留更多的交互信息

1 2 3 4 5 6 7 分步阅读xshell中有一项缓冲区设置的配置,我们可以对这项内容进行设置来影响xshell客户端屏幕的信息数量,下面我带大家一起看下如何进行操作工具/原料 xshell 方法/步骤 1 首先我们需要了解,xshell的屏幕输出都是由缓冲区的大小来决定的,如果设置的数值较大我们就可以在xshell的客户端中保留更多的记录等需要的时候可以查看,反之则会保留较少的信息,两者各有优劣势看...

2020-10-30 14:34:15 865

转载 shell命令执行的详细时间查看命令time

用途说明time命令常用于测量一个命令的运行时间,注意不是用来显示和修改系统时间的(这是date命令干的事情)。但是今天我通过查看time命令的手册页,发现它能做的不仅仅是测量运行时间,还可以测量内存、I/O等的使用情况,手册页上的说法是time a simple command or give resource usage,其中time一词我认为它应该是测量或测定的意思,并不单指时间。一个程序在运行时使用的系统资源通常包括CPU、Memory和I/O等,其中CPU资源的统计包括实际使用时间(rea...

2020-10-30 14:16:48 4298

转载 CAS机制(多线程)

---- 什么是CAS机制 CAS机制主要是发生于Java中原子操作类(JUC)的底层实现中,其中在CAS机制中包含3个基本参数:内存地址V、旧预期值A、要修改的新值B。当要更新一个变量的时候,只有当变量的预期值A和内存地址V当中的实际值相同的时候,才会将内存地址V对应的值修改为B举个栗子在一个内存地址为V内存中,储存着变量值10(即此时A=10) 此时,来了一个线程A,想对该变量进行增加1操作(即此时对线程A来说:A=10,B=11) 但是,当线程A操作之前,被线程B...

2020-10-29 19:16:19 369

转载 多线程之CAS

在JDK 5之前Java语言是靠synchronized关键字保证同步的,这会导致有锁锁机制存在以下问题:(1)在多线程竞争下,加锁、释放锁会导致比较多的上下文切换和调度延时,引起性能问题。(2)一个线程持有锁会导致其它所有需要此锁的线程挂起。(3)如果一个优先级高的线程等待一个优先级低的线程释放锁会导致优先级倒置,引起性能风险。volatile是不错的机制,但是volatile不能保证原子性。因此对于同步最终还是要回到锁机制上来。独占锁是一种悲观锁,synchronized就是一种

2020-10-29 19:15:33 207

转载 druid,impala,presto对比

背景数据轨迹在湖北落地,面临查询分析时间过长的问题,并且查询时间与大数据能够分配的资源有直接的线性关系。需要考虑如何将数据轨迹查询提速。与paas的niuxl沟通,建议使用impala或者spark做查询,于是查询对比各种开源的OLAP引擎。按照查询类型划分,OLAP一般分为即席查询和固化查询,即席查询:通过手写sql完成一些临时的数据分析需求,这类sql形式多变、逻辑复杂,对查询时间没有严格要求 固化查询:指的是一些固化下来的取数、看数需求,通过数据产品的形式提供给用户,从而提高数...

2020-10-28 21:03:40 694

转载 Apache Kylin在美团点评的应用

美团点评的OLAP需求大体分为两类:即席查询:指用户通过手写SQL来完成一些临时的数据分析需求。这类需求的SQL形式多变、逻辑复杂,对响应时间没有严格的要求。固化查询:指对一些固化下来的取数、看数的需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。这类需求的SQL有固定的模式,对响应时间有比较高的要求 。我们针对即席查询提供了Hive和Presto两个引擎。而固化查询由于需要秒级响应,很长一段时间都是通过先在数仓对数据做预聚合,再将聚合表导入MySQL提供查询实现的。但是随...

2020-10-28 21:02:42 251

转载 开源大数据查询分析引擎现状

商业系统InfoBright Greenplum(已开源)、HP Vertica、TeraData、Palo、ExaData、RedShift、BigQuery(Dremel)开源实现Impala、Presto、Spark SQL、Drill、Hawq Druid、Pinot Kylin大体分为三类:1.基于hbase预聚合的,比如Opentsdb,Kylin,Druid等,需要指定预聚合的指标,在数据接入的时候根据指定的指标进行聚合运算,适合相对固定的业务报表类需求,只需要统计少量...

2020-10-28 21:01:05 554

转载 如何比较Hive,Spark,Impala和Presto?

Spark,Hive,Impala和Presto是基于SQL的引擎,Impala由Cloudera开发和交付。在选择这些数据库来管理数据库时,许多Hadoop用户会感到困惑。Presto是一个开放源代码的分布式SQL查询引擎,旨在运行甚至PB级的SQL查询,它是由Facebook人设计的。Spark SQL是一个分布式内存计算引擎,它的内存处理能力很高。Hive也由Apache作为查询引擎引入,这使数据库工程师的工作更加轻松,他们可以轻松地在结构化数据上编写ETL作业。在发布Spark之前,Hiv...

2020-10-28 20:59:55 3259

转载 大数据开源引擎presto和impala,哪个好?

作者:拥抱大数据链接:https://www.zhihu.com/question/391626341/answer/1204632615来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。1 引擎介绍:首先你要知道Presto,Impala都属于开源OLAP引擎.Presto是一个分布式SQL查询引擎,FaceBook于2013年11月份对其进行了开源, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggre.

2020-10-28 20:58:37 1456

转载 impala presto SparkSql性能测试对比

目标是为测试impala presto SparkSql谁的性能更佳,以下结果底层查询的都是普通textfile snappy压缩后数据,规模为15台机器,若以orcfile、parquet速度能快数倍impala与presto性能相当,SparkSql逊色不少。目前看presto相比impala1、与hive实时共享元数据,impala需要用另外定时任务广播元数据,新生成的数据,用impala不能立即查询。2、没有出现操作大数据集有时挂掉的情况3、presto与hive都由...

2020-10-28 20:57:29 888

转载 Impala安装和使用问题汇总

近日调研了Kudu+Impala大数据存储引擎,在安装和使用的过程中也遇到不少问题,解决起来也是不容易(lz比较菜鸟),在这里记录一下,也当是分享吧。1.Impala不能创建表,提示权限的问题具体情况: [data.beta.com:21000] > create table user_data(user_id string,code string,value string); Query: create table user_data(user_id stri...

2020-10-28 20:54:59 872

转载 Hive数据导入方案—使用ORC格式存储hive数据

目的:将上网日志导入到hive中,要求速度快,压缩高,查询快,表易维护。推荐使用ORC格式的表存储数据思路:因为在hive指定RCFile格式的表,不能直接load数据,只能通过textfile表进行insert转换。考虑先建立txtFile格式内部临时表tmp_testp,使用hdfs fs -put命令向tmp_testp表路径拷贝数据(不是load),再建立ORC格式外部表http_orc,使用insert命令把tmp_test表导入http_orc中,最后删除...

2020-10-28 17:24:01 3961 1

转载 清空hive表时报错Cannot truncate non-managed table

在执行命令truncate 清空hive表时,报错如下:FAILED: SemanticException [Error 10146]: Cannot truncate non-managed table mtime_qa.userorder_logs我清空的是一个外部表。如图:看hortontworks官方解释:note:This error happens when you're trying to truncate an external table. Truncate ...

2020-10-27 11:21:48 5903

转载 13. 大佬问我: notify()会立刻释放锁么?

大佬问我:notify()会立刻释放锁么?​我的内心戏: 肯定会啊! 这么简单的问题?image聪明如我, 决定装小白, 回答:不会?大佬:很好, 小伙子基础不错!我:image大佬:说说为什么我: ………………image于是, 有了这篇文章!问题的根本原来在于 “立刻”这个描述词!如果你和咸鱼君一样懵逼, 不妨往下看!技术大佬可以告辞了!!接下来, 我们深入的分析分析wait和noti...

2020-10-27 10:05:01 220 1

转载 这21个刁钻的HashMap面试题,我把阿里面试官吊打了

1:HashMap 的数据结构?A:哈希表结构(链表散列:数组+链表)实现,结合数组和链表的优点。当链表长度超过 8 时,链表转换为红黑树。transientNode\[\]table;2:HashMap 的工作原理?HashMap 底层是 hash 数组和单向链表实现,数组中的每个元素都是链表,由 Node 内部类(实现 Map.Entry接口)实现,HashMap 通过 put & get 方法存储和获取。存储对象时,将 K/V 键值传给 put() 方法:①、调用...

2020-10-27 10:03:24 189

转载 LRU 的几种java实现

1.双向链表package LRU;import java.util.Iterator;import java.util.LinkedList;/** * LRU: 最近最少使用算法 。 最近最少使用的元素,在接下来一段时间内,被访问的概率也很低。 * 即最近被使用的元素,在接下来一段时间内,被访问概率较高。 * <p> * 用链表的结构: * 链表尾表示最近被访问的元素,越靠近链表头表示越早之前被访问的元素 * <p> * 插入一个元素,cach...

2020-10-27 09:51:13 284

转载 基于hive-testbench实现TPC-DS测试

文章目录 TPC-DS测试概述 1. TPC-H 2. TPC-DS 使用hive-testbench生成hive基准测试数据 1.环境准备 拉取代码 安装gcc 安装maven 2.执行编译 3.生成数据并加载到hive中 4.使用Hue验证数据 5.生成数据时的一些异常处理 Permission denied: user=root, access=WRITE File do...

2020-10-26 20:30:33 683 4

转载 【Hive】开源Hive基准测试工具使用(hive-testbench-hive14)

Hive基准测试工具工具,可用来造数测试Hive基本性能Github:https://github.com/hortonworks/hive-testbench/TPC-DS:提供一个公平和诚实的业务和数据模型,99个案例 TPC-H:面向商品零售业的决策支持系统测试基准,定义了8张表,22个查询 wget https://github.com/hortonworks/hive-testbench/archive/hive14.zip unzip hive14.zip...

2020-10-26 20:28:53 586

转载 Hive使用with...as建立子查询

基本格式with sub_query_name1 as ( select xx from xxx), -- 注意这里用逗号分割sub_query_name2 as ( --注意这里没有as,上面一个as跟多个sub_query select xx from xx)select --正式查询语句,与上面的with as直接没有符号分割 xxfrom xx注意事项sub_query直接用逗号分割,一个sub_query用圆括号扩起来 with 只能...

2020-10-26 18:16:06 776

转载 HIVE新增表在Impala中不能及时查看问题

这里基于CDH部署安装的HIVE和Impala,当我们在HIVE中新增一张表时,我们发现在Impala中不能及时查看到新增表,这是因为元数据信息没有及时刷新,在impala里执行invalidate metadata命令刷新元数据即可。这里我们简单测试HIVE中新建一张表并查看CREATE TABLE test_01(id INT,name STRING,sex STRING,dataday STRING);--HIVE中查看新增表hive> show tables;OKte...

2020-10-26 17:54:20 485

转载 tpc-ds基准测试案例-hive

环境条件及测试套件准备Hdp-3.0.0 Hive-3.1.0 Hdfs-3.1.0 Maven,如果未安装在tpcds-build时,自动安装 下载hive -testbench-hdp3.zip ,根据自己安装的环境下载对应的测试套件https://github.com/hortonworks/hive-testbench编译并打包相应的数据生成器# unzip hive -testbench-hdp3.zip# cd hive -testbench-hdp3...

2020-10-26 17:22:05 1117

转载 tpc-ds 性能测试

1.安装依赖yum-y install gcc gcc-c++ libstdc++-devel bison byacc flex2.下载http://www.tpc.org/tpc_documents_current_versions/current_specifications.asp3安装unzip tpc-ds-tool.zipcd v2.3.0/toolsmake4.生成数据生成100G数据./dsdgen -scale 100-dir /tmp/...

2020-10-26 15:39:20 802 1

转载 使用TPC-DS工具生成数据

1、下载工具两种渠道a、官网(建议直接跳过~)地址:http://www.tpc.org/tpc_documents_current_versions/current_specifications.asp在信息填写正确的情况下,无法下载。看网友的解答,需要用谷歌浏览器才能下载。尝试未果。b、github上下载地址:https://github.com/gregrahn/tpcds-kit.gitps:官方的包生成sql的时候会报错,上面这个大神已经修复。2、编译操..

2020-10-26 11:56:01 831

转载 如何编译及使用TPC-DS生成测试数据

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢1.文档编写目的TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与...

2020-10-26 11:53:39 1466 1

转载 TPC-DS测试

TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集一、安装TPC-DS工具1.安装依赖yum-y install gcc gcc-c++ libstdc++-devel...

2020-10-26 11:44:58 528

转载 TPC-DS性能测试及使用方法

一、安装TPC-DS工具1、下载工具 下载地址:http://www.tpc.org/tpc_documents_current_versions/download_programs/tools-download-request.asp?bm_type=TPC-DS&bm_vers=2.6.0&mode=CURRENT-ONLY注意:必须输入邮箱,他会发下载地址到邮箱中,点击下载地址即可下载。2、解压编译工具   1)解压    执行命令:unzip 944eb36c-5...

2020-10-26 10:31:55 2468

转载 presto的安装部署

Presto是什么?Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。如果你需要处理TB或者PB级别的数据,那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理。作为Hive和Pig(Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询)的替代者,Presto不仅可以访问HDFS,也可以操作不同的数据源,包括:RDBMS和其他的数据源(例如:Cassandra)。Presto被设计为数据仓库和数据分析产品:数据分析、大规模数据聚集和生成报表。这些...

2020-10-23 18:03:15 146

转载 Presto 安装部署

1.版本选型hadoop-3.1.3hive-3.1.2presto-0.233.12.Presto 简介详细参考:https://prestodb.github.io/docs/current/connector.html2.1 Presto 优势多数据源,支持SQL,自定义扩展Connector混合计算(同一种数据源的不同库 or表;将多个数据源的数据进行合并)低延迟,高并发,纯内存计算引擎,高性能2.2 Presto 架构# presto提供插件...

2020-10-23 18:01:07 272 1

转载 全面认识:BI、数据仓库、数据湖和数据中台内涵及差异点 

前言随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DDS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。一数据仓库数据仓库平台逐步从BI报表为主到分析为主、到预测为主、再到操作智能为目标。图1.数据仓库发展阶段划分商务智能(BI,Business Intelligence)是一种以提供决策分析性的运...

2020-10-23 15:45:54 439

转载 如何在更改全局JDK版本1.7.0情况下,让Presto使用JDK1.8.0呢?

方法 1:使用临时的环境变量,即在命令行中:export JAVA_HOME=/opt/jdk1.8.0_131export PATH=$JAVA_HOME/bin:$PATH弊端在于仅仅只能做调试之用,满足一时需求,一旦退出当前TTY session,该环境变量便失效。方法2:PATH=/opt/jdk1.8.0_131/bin/:$PATHjava -version# 将JDK环境变量添加在 exec 之前exec "$(dirname "$0")/launcher...

2020-10-23 15:18:23 440 2

转载 Presto 安装部署

1.版本选型hadoop-3.1.3hive-3.1.2presto-0.233.12.Presto 简介详细参考:https://prestodb.github.io/docs/current/connector.html2.1 Presto 优势多数据源,支持SQL,自定义扩展Connector混合计算(同一种数据源的不同库 or表;将多个数据源的数据进行合并)低延迟,高并发,纯内存计算引擎,高性能2.2 Presto 架构# presto提供插件...

2020-10-23 14:35:12 271

转载 presto环境搭建

1、环境准备支持操作系统:Linux or Mac OS XJava 8, 64-bitPython 2.4+支持hadoop集群环境版本:Apache Hadoop 1.xApache Hadoop 2.xCloudera CDH 4Cloudera CDH 5备注:这里我们准备三台Ubuntu 14.04并且搭建CDH5.10集群2、下载安装包presto-server-0.191.tar.gz下载路径:https://repo1.maven.org/maven2...

2020-10-23 14:02:55 551

转载 Centos6离线安装CDH5.14.2最全详细教程-6配置Mysql

文章目录 概述 配置Mysql数据库 为Cloudera Manager配置Mysql数据库 下一部分 概述文章写得很详细,很长所以这里分成了7个部分这里是第六部分,主要讲配置Mysql作为Cloudera Manager及CDH组件的数据库操作的话建议从第一部分开始不知道为什么后面的几个部分的阅读量比前言大得多,强烈建议从第一部分开始操作,文章验证过好多次了,各部分之间都是相互依赖的,只看中间某一篇的话很可能出错第一部分:前言第二部分:环境准备1第三部...

2020-10-22 17:44:31 113

转载 MySQL创建用户和授权

我们知道我们的最高权限管理者是root用户,它拥有着最高的权限操作。包括select、update、delete、update、grant等操作。那么一般情况在公司之后DBA工程师会创建一个用户和密码,让你去连接数据库的操作,并给当前的用户设置某个操作的权限(或者所有权限)。那么这时就需要我们来简单了解一下:如何创建用户和密码 给当前的用户授权 移除当前用户的权限如果你想创建一个新的用户,则需要以下操作: 进入到mysql数据库下 mysql> use mysql Da.

2020-10-22 15:48:33 97

转载 mysql创建新的用户及flush privileges解析

1、首先以root用户登录到mysqlmysql -u root -p2、接着要知道mysql的用户信息是存储在mysql.user(mysql数据库下的user数据表)下的,所以我们只需添加一个用户即可3、插入之后,并没有完全创建成功,我们可以测试一下,退出之后,用刚才创建的guest02进行登陆,提示错误4、其实上面的插入操作只是在user表中插入了一条记录,并没有刷新mysql的系统权限相关的数据表,换句话说并没有将刚才插入的记录提取到内存中,那么如何使修改生效呢?这里...

2020-10-22 14:15:08 234

转载 记录CDH安装的一个坑:could not contact scm server at localhost:7182, giving up

错误:在web界面安装 agent那一步,抛错,单击信息查看如下初步分析:是用localhost:7182 无法连接scm server尝试解决办法:1.检查关闭防火墙2.检查python版本2.6.63.检查/etc/hosts文件,重启网络service network restart4.检查/etc/sysconfig/network文件,重启网络service network restart5.检查/etc/resolv.conf文件,重启网络service n...

2020-10-21 20:11:15 535

转载 Linux上安装pstree命令(-bash: pstree: command not found)

一、pstree命令的安装1、在Mac OS上 brew install pstree2、在Fedora/Red Hat/CentOS yum -y install psmisc3、在Ubuntu/Debian apt-get install psmisc二、pstree命令详解pstree指令用ASCII字符显示树状结构,清楚地表达程序间的相互关系。如果不指定程序识别码或用户名称,则会把系统启动时的第一个程序视为基层,并显示之后的所有...

2020-10-21 15:51:41 3153

转载 Access denied for user ‘root‘@‘localhost‘问题的解决

问题场景在阿里云上部署了一台服务器,CentOS6.8系统环境,安装了MySql+Nginx+Git+vsftpd等软件,在本地Linux终端以非root账户SSH远程登录服务器,在将项目打包发布时遇到如题所示问题。代码中配置文件里的用户名不是“root”,密码正确,且该用户名和密码是配置在服务端数据库的用户表中的。但是在用浏览器调用跟数据库交互接口时出错:尝试解决网上搜了一堆文章,主要集中在(1)对root授权:无效grant all privileges on *.* t...

2020-10-21 15:23:28 933

转载 mysqladmin 命令详解

mysqladmin是一个执行管理操作的客户端程序。它可以用来检查服务器的配置和当前状态、创建和删除数据库等。mysqladmin 工具的使用格式:mysqladmin [option] command [command option] command ......option 选项:-c number 自动运行次数统计,必须和 -i 一起使用-i number 间隔多长时间重复执行每个两秒查看一次服务器的状态,总共重复5次。./mysqladmin -uroot -p -i ...

2020-10-21 12:04:46 1448

转载 centos6.5下的mysql5.6.30安装

1.解压mysqltar -xf mysql-5.6.30-linux-glibc2.5-x86_64.tar.gz -C /usr/localmv mysql-5.6.30-linux-glibc2.5-x86_64 mysql-5.6.302.添加用户与组groupadd mysqluseradd -g mysql mysql -s /sbin/nologinchown -R mysql:mysql mysql-5.6.303.安装数据库mkdir...

2020-10-21 11:57:12 88

Google.Android.SDK开发范例大全.pdf

Google.Android.SDK开发范例大全.pdf

2013-06-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除