2020年10月_zxfBdd

转载 xshell设置缓冲区大小保留更多的交互信息

1 2 3 4 5 6 7 分步阅读xshell中有一项缓冲区设置的配置，我们可以对这项内容进行设置来影响xshell客户端屏幕的信息数量，下面我带大家一起看下如何进行操作工具/原料 xshell 方法/步骤 1 首先我们需要了解，xshell的屏幕输出都是由缓冲区的大小来决定的，如果设置的数值较大我们就可以在xshell的客户端中保留更多的记录等需要的时候可以查看，反之则会保留较少的信息，两者各有优劣势看...

2020-10-30 14:34:15 865

转载 shell命令执行的详细时间查看命令time

用途说明time命令常用于测量一个命令的运行时间，注意不是用来显示和修改系统时间的（这是date命令干的事情）。但是今天我通过查看time命令的手册页，发现它能做的不仅仅是测量运行时间，还可以测量内存、I/O等的使用情况，手册页上的说法是time a simple command or give resource usage，其中time一词我认为它应该是测量或测定的意思，并不单指时间。一个程序在运行时使用的系统资源通常包括CPU、Memory和I/O等，其中CPU资源的统计包括实际使用时间（rea...

2020-10-30 14:16:48 4298

转载 CAS机制（多线程）

---- 什么是CAS机制 CAS机制主要是发生于Java中原子操作类（JUC）的底层实现中，其中在CAS机制中包含3个基本参数：内存地址V、旧预期值A、要修改的新值B。当要更新一个变量的时候，只有当变量的预期值A和内存地址V当中的实际值相同的时候，才会将内存地址V对应的值修改为B举个栗子在一个内存地址为V内存中，储存着变量值10（即此时A=10）此时，来了一个线程A，想对该变量进行增加1操作（即此时对线程A来说：A=10，B=11）但是，当线程A操作之前，被线程B...

2020-10-29 19:16:19 369

转载多线程之CAS

在JDK 5之前Java语言是靠synchronized关键字保证同步的，这会导致有锁锁机制存在以下问题：（1）在多线程竞争下，加锁、释放锁会导致比较多的上下文切换和调度延时，引起性能问题。（2）一个线程持有锁会导致其它所有需要此锁的线程挂起。（3）如果一个优先级高的线程等待一个优先级低的线程释放锁会导致优先级倒置，引起性能风险。volatile是不错的机制，但是volatile不能保证原子性。因此对于同步最终还是要回到锁机制上来。独占锁是一种悲观锁，synchronized就是一种

2020-10-29 19:15:33 207

转载 druid，impala，presto对比

背景数据轨迹在湖北落地，面临查询分析时间过长的问题，并且查询时间与大数据能够分配的资源有直接的线性关系。需要考虑如何将数据轨迹查询提速。与paas的niuxl沟通，建议使用impala或者spark做查询，于是查询对比各种开源的OLAP引擎。按照查询类型划分，OLAP一般分为即席查询和固化查询，即席查询:通过手写sql完成一些临时的数据分析需求，这类sql形式多变、逻辑复杂，对查询时间没有严格要求固化查询：指的是一些固化下来的取数、看数需求，通过数据产品的形式提供给用户，从而提高数...

2020-10-28 21:03:40 694

转载 Apache Kylin在美团点评的应用

美团点评的OLAP需求大体分为两类：即席查询：指用户通过手写SQL来完成一些临时的数据分析需求。这类需求的SQL形式多变、逻辑复杂，对响应时间没有严格的要求。固化查询：指对一些固化下来的取数、看数的需求，通过数据产品的形式提供给用户，从而提高数据分析和运营的效率。这类需求的SQL有固定的模式，对响应时间有比较高的要求。我们针对即席查询提供了Hive和Presto两个引擎。而固化查询由于需要秒级响应，很长一段时间都是通过先在数仓对数据做预聚合，再将聚合表导入MySQL提供查询实现的。但是随...

2020-10-28 21:02:42 251

转载开源大数据查询分析引擎现状

商业系统InfoBright Greenplum（已开源）、HP Vertica、TeraData、Palo、ExaData、RedShift、BigQuery（Dremel）开源实现Impala、Presto、Spark SQL、Drill、Hawq Druid、Pinot Kylin大体分为三类：1.基于hbase预聚合的，比如Opentsdb,Kylin,Druid等,需要指定预聚合的指标，在数据接入的时候根据指定的指标进行聚合运算，适合相对固定的业务报表类需求，只需要统计少量...

2020-10-28 21:01:05 554

转载如何比较Hive，Spark，Impala和Presto？

Spark，Hive，Impala和Presto是基于SQL的引擎，Impala由Cloudera开发和交付。在选择这些数据库来管理数据库时，许多Hadoop用户会感到困惑。Presto是一个开放源代码的分布式SQL查询引擎，旨在运行甚至PB级的SQL查询，它是由Facebook人设计的。Spark SQL是一个分布式内存计算引擎，它的内存处理能力很高。Hive也由Apache作为查询引擎引入，这使数据库工程师的工作更加轻松，他们可以轻松地在结构化数据上编写ETL作业。在发布Spark之前，Hiv...

2020-10-28 20:59:55 3259

转载大数据开源引擎presto和impala，哪个好？

作者：拥抱大数据链接：https://www.zhihu.com/question/391626341/answer/1204632615来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。1 引擎介绍:首先你要知道Presto,Impala都属于开源OLAP引擎.Presto是一个分布式SQL查询引擎,FaceBook于2013年11月份对其进行了开源，它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL，包括复杂查询、聚合（aggre.

2020-10-28 20:58:37 1456

转载 impala presto SparkSql性能测试对比

目标是为测试impala presto SparkSql谁的性能更佳，以下结果底层查询的都是普通textfile snappy压缩后数据，规模为15台机器，若以orcfile、parquet速度能快数倍impala与presto性能相当，SparkSql逊色不少。目前看presto相比impala1、与hive实时共享元数据，impala需要用另外定时任务广播元数据，新生成的数据，用impala不能立即查询。2、没有出现操作大数据集有时挂掉的情况3、presto与hive都由...

2020-10-28 20:57:29 888

转载 Impala安装和使用问题汇总

近日调研了Kudu+Impala大数据存储引擎，在安装和使用的过程中也遇到不少问题，解决起来也是不容易(lz比较菜鸟)，在这里记录一下，也当是分享吧。1.Impala不能创建表，提示权限的问题具体情况： [data.beta.com:21000] > create table user_data(user_id string,code string,value string); Query: create table user_data(user_id stri...

2020-10-28 20:54:59 872

转载 Hive数据导入方案—使用ORC格式存储hive数据

目的：将上网日志导入到hive中，要求速度快，压缩高，查询快，表易维护。推荐使用ORC格式的表存储数据思路：因为在hive指定RCFile格式的表，不能直接load数据，只能通过textfile表进行insert转换。考虑先建立txtFile格式内部临时表tmp_testp，使用hdfs fs -put命令向tmp_testp表路径拷贝数据（不是load），再建立ORC格式外部表http_orc，使用insert命令把tmp_test表导入http_orc中，最后删除...

2020-10-28 17:24:01 3961 1

转载清空hive表时报错Cannot truncate non-managed table

在执行命令truncate 清空hive表时，报错如下：FAILED: SemanticException [Error 10146]: Cannot truncate non-managed table mtime_qa.userorder_logs我清空的是一个外部表。如图：看hortontworks官方解释：note：This error happens when you're trying to truncate an external table. Truncate ...

2020-10-27 11:21:48 5903

转载 13. 大佬问我: notify()会立刻释放锁么?

大佬问我:notify()会立刻释放锁么?我的内心戏: 肯定会啊! 这么简单的问题?image聪明如我, 决定装小白, 回答:不会?大佬:很好, 小伙子基础不错!我:image大佬:说说为什么我: ………………image于是, 有了这篇文章!问题的根本原来在于 “立刻”这个描述词!如果你和咸鱼君一样懵逼, 不妨往下看!技术大佬可以告辞了!!接下来, 我们深入的分析分析wait和noti...

2020-10-27 10:05:01 220 1

转载这21个刁钻的HashMap面试题，我把阿里面试官吊打了

1：HashMap 的数据结构？A：哈希表结构（链表散列：数组+链表）实现，结合数组和链表的优点。当链表长度超过 8 时，链表转换为红黑树。transientNode\[\]table;2：HashMap 的工作原理？HashMap 底层是 hash 数组和单向链表实现，数组中的每个元素都是链表，由 Node 内部类（实现 Map.Entry接口）实现，HashMap 通过 put & get 方法存储和获取。存储对象时，将 K/V 键值传给 put() 方法：①、调用...

2020-10-27 10:03:24 189

转载 LRU 的几种java实现

1.双向链表package LRU;import java.util.Iterator;import java.util.LinkedList;/** * LRU: 最近最少使用算法。最近最少使用的元素，在接下来一段时间内，被访问的概率也很低。 * 即最近被使用的元素，在接下来一段时间内，被访问概率较高。 * <p> * 用链表的结构： * 链表尾表示最近被访问的元素，越靠近链表头表示越早之前被访问的元素 * <p> * 插入一个元素，cach...

2020-10-27 09:51:13 284

转载基于hive-testbench实现TPC-DS测试

文章目录 TPC-DS测试概述 1. TPC-H 2. TPC-DS 使用hive-testbench生成hive基准测试数据 1.环境准备拉取代码安装gcc 安装maven 2.执行编译 3.生成数据并加载到hive中 4.使用Hue验证数据 5.生成数据时的一些异常处理 Permission denied: user=root, access=WRITE File do...

2020-10-26 20:30:33 683 4

转载【Hive】开源Hive基准测试工具使用（hive-testbench-hive14）

Hive基准测试工具工具，可用来造数测试Hive基本性能Github：https://github.com/hortonworks/hive-testbench/TPC-DS：提供一个公平和诚实的业务和数据模型，99个案例 TPC-H：面向商品零售业的决策支持系统测试基准，定义了8张表，22个查询 wget https://github.com/hortonworks/hive-testbench/archive/hive14.zip unzip hive14.zip...

2020-10-26 20:28:53 586

转载 Hive使用with...as建立子查询

基本格式with sub_query_name1 as ( select xx from xxx), -- 注意这里用逗号分割sub_query_name2 as ( --注意这里没有as，上面一个as跟多个sub_query select xx from xx)select --正式查询语句，与上面的with as直接没有符号分割 xxfrom xx注意事项sub_query直接用逗号分割，一个sub_query用圆括号扩起来 with 只能...

2020-10-26 18:16:06 776

转载 HIVE新增表在Impala中不能及时查看问题

这里基于CDH部署安装的HIVE和Impala，当我们在HIVE中新增一张表时，我们发现在Impala中不能及时查看到新增表，这是因为元数据信息没有及时刷新，在impala里执行invalidate metadata命令刷新元数据即可。这里我们简单测试HIVE中新建一张表并查看CREATE TABLE test_01(id INT,name STRING,sex STRING,dataday STRING);--HIVE中查看新增表hive> show tables;OKte...

2020-10-26 17:54:20 485

转载 tpc-ds基准测试案例-hive

环境条件及测试套件准备Hdp-3.0.0 Hive-3.1.0 Hdfs-3.1.0 Maven，如果未安装在tpcds-build时，自动安装下载hive -testbench-hdp3.zip ，根据自己安装的环境下载对应的测试套件https://github.com/hortonworks/hive-testbench编译并打包相应的数据生成器# unzip hive -testbench-hdp3.zip# cd hive -testbench-hdp3...

2020-10-26 17:22:05 1117

转载 tpc-ds 性能测试

1.安装依赖yum-y install gcc gcc-c++ libstdc++-devel bison byacc flex2.下载http://www.tpc.org/tpc_documents_current_versions/current_specifications.asp3安装unzip tpc-ds-tool.zipcd v2.3.0/toolsmake4.生成数据生成100G数据./dsdgen -scale 100-dir /tmp/...

2020-10-26 15:39:20 802 1

转载使用TPC-DS工具生成数据

1、下载工具两种渠道a、官网（建议直接跳过～）地址：http://www.tpc.org/tpc_documents_current_versions/current_specifications.asp在信息填写正确的情况下，无法下载。看网友的解答，需要用谷歌浏览器才能下载。尝试未果。b、github上下载地址：https://github.com/gregrahn/tpcds-kit.gitps：官方的包生成sql的时候会报错，上面这个大神已经修复。2、编译操..

2020-10-26 11:56:01 831

转载如何编译及使用TPC-DS生成测试数据

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢1.文档编写目的TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表，17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询，覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用，测试用的数据和值是有倾斜的，与...

2020-10-26 11:53:39 1466 1

转载 TPC-DS测试

TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表，17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询，覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用，测试用的数据和值是有倾斜的，与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集，也是难度较大的一个测试集一、安装TPC-DS工具1.安装依赖yum-y install gcc gcc-c++ libstdc++-devel...

2020-10-26 11:44:58 528

转载 TPC-DS性能测试及使用方法

一、安装TPC-DS工具1、下载工具下载地址：http://www.tpc.org/tpc_documents_current_versions/download_programs/tools-download-request.asp?bm_type=TPC-DS&bm_vers=2.6.0&mode=CURRENT-ONLY注意：必须输入邮箱，他会发下载地址到邮箱中，点击下载地址即可下载。2、解压编译工具 1）解压执行命令：unzip 944eb36c-5...

2020-10-26 10:31:55 2468

转载 presto的安装部署

Presto是什么?Presto通过使用分布式查询，可以快速高效的完成海量数据的查询。如果你需要处理TB或者PB级别的数据，那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理。作为Hive和Pig（Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询）的替代者，Presto不仅可以访问HDFS，也可以操作不同的数据源，包括：RDBMS和其他的数据源（例如：Cassandra）。Presto被设计为数据仓库和数据分析产品：数据分析、大规模数据聚集和生成报表。这些...

2020-10-23 18:03:15 146

Google.Android.SDK开发范例大全.pdf

空空如也