a280966503-CSDN博客

转载 Linux vi中查找字符内容的方法

使用vi编辑器编辑长文件时，常常是头昏眼花，也找不到需要更改的内容。这时，使用查找功能尤为重要。方法如下：1、命令模式下输入“/字符串”，例如“/Section 3”。2、如果查找下一个，按“n”即可。要自当前光标位置向上搜索，请使用以下命令：/pattern Enter其中，pattern表示要搜索的特定字符序列。要自当前光标位置向下搜索，请使用以下命令：...

2018-09-12 16:31:59 474

在实际的生产环境下,我们常常是要继续数据增量的导入核心参数–check-column 用来指定一些列，这些列在增量导入时用来检查这些数据是否作为增量数据进行导入，和关系型数据库中的自增字段及时间戳类似. 注意:这些被指定的列的类型不能使任意字符类型，如char、varchar等类型都是不可以的，同时–check-column可以去指定多个列–incremental 用来指定增量导入的模式，两种模式...

2018-03-07 13:09:45 775 2

转载 Hive Index

简介本文简单介绍一下hive索引的创建以及使用类型介绍hive当前的索引的类型主要有两种: - CompactIndexHandler(压缩索引) - Bitmap(位图索引)使用场景相比于传统数据库，Hive只提供有限的索引功能，通过在某些字段上建立索引来加速某些操作。通常当逻辑分区太多太细，partition无法满足时，可以考虑建立索引.。用户可以使用EXPLAIN语法来分析HiveQL语句是...

2018-03-07 13:03:16 624

转载 Hive 分桶表

简介本文主要介绍了Hive中分桶表的使用及作用分桶和分区分区提供了一个隔离数据和优化查询的便利的方式.但是当分区的数量过多时，会产生过多的小分区,这样会给namenode带来较大的压力.分桶试讲数据集分解成更容易管理的若干部分的另一个技术.使用我们先准备我们将使用的分桶表的数据.1,jack,2016/11/112,michael,2016/11/123,summer,2016/11/134...

2018-03-07 13:01:22 797

转载 Hive 表的复制

简介本文介绍hive中表的复制非分区表的复制如果我们想要复制一张非分区表,可以使用create tale as去解决;实例假如我们有一张t_temp的表,为普通的内部表.复制可以采用如下的语句:create table t_copy as select * from t_temp;1这样就复制出一张和t_temp结构一致的表分区表的复制分区表如果采用这种create…as…的方法去复制,数据是可以...

2018-03-07 11:53:10 600

转载 Hive Beeline

简介连接hive的driver是有3种方式的,我们这里介绍一下常用的beeline.beeline是使用jdbc去连接hive.使用在使用beeline去连接hive之前,我们要打开hive的hiveserver2服务,这样beeline才能通过jdbc去连接hive.--启动hiveserver2的两种方式hiveserver2hive --service hiveserver2123然后我...

2018-03-07 11:52:10 360

转载 Hive窗口函数

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数....

2018-03-07 11:50:32 179

转载 spark on yarn中的启动参数

在spark-on-yarn下cluster模式中显示ResourceManager：负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）。NameNode：SecondaryNameNode：DataNode：NodeManager：CoarseGrainedE...

2018-03-04 00:04:02 686

转载 hive-hbase语句

CREATE TABLE hive_hbase_emp_table(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROP...

2018-03-03 02:06:48 174

转载 Hive-1.2.1与HBase-1.1.2的整合

这里的整合是指，将HBase作为存储数据的库，由Hive作为连接桥梁修改 Hive hive-site.xml增加<property> 　　<name>hbase.zookeeper.quorum</name> 　　　　<value>master:2181,slave1:2182,slave2:2183</value> 　　...

2018-03-02 18:33:24 735

转载 hbase-hive

CREATE TABLE hive_hbase_emp_table(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROP...

2018-03-02 15:54:23 154

转载 Hive 窗口函数、分析函数

1 分析函数：用于等级、百分点、n分片等Ntile 是Hive很强大的一个分析函数。可以看成是：它把有序的数据集合平均分配到指定的数量（num）个桶中, 将桶号分配给每一行。如果不能平均分配，则优先分配较小编号的桶，并且各个桶中能放的行数最多相差1。语法是： ntile (num) over ([partition_clause] order_by_clause) as you...

2018-03-01 18:57:54 338

转载 scala中的match..case语句

scala中的match语句用来在一个列表中选择某一个分支来执行分支的语句块，类似于其他语言中的swtich..case语句下面是一个简单的例子var myVar = "theValue";myVar match { case "someValue" => println(myVar + " 1"); case "thisValue" => println(myV...

2018-03-01 17:03:16 1850

转载 SPARK的Shuffle过程 - MapReduce

Shuffle横跨Map端和Reduce端，在Map端包括Spill过程，在Reduce端包括copy和sort过程

2018-02-28 22:05:41 197

转载 Spark集群三种部署模式的区别

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算框架，比如MapReduce，公用一...

2018-02-28 18:40:45 399

原创 mysql语句参考

create index idx_user_nameAge on tbl_user(uname,age);联合索引create index 索引表名 on 表名(列...)SELECT uname FROM staffs WHERE uname = 'July' union all SELECT uname FROM staffs WHERE uname = '2000'可以替换下列语句SELE...

2018-02-26 22:39:29 169

转载 mysql联合索引

命名规则：表名_字段名1、需要加索引的字段，要在where条件中2、数据量少的字段不需要加索引3、如果where条件中是OR关系，加索引不起作用4、符合最左原则https://segmentfault.com/q/1010000003984016/a-1020000003984281联合索引又叫复合索引。对于复合索引:Mysql从左到右的使用索引中的字段，一个查询可以只使用索引中的一部份，但只能是...

2018-02-25 22:12:06 144

原创 sql优化

a.SQL的优化1.尽量使用列名来取代*号2.where解析顺序：从右往左，假的尽量放在右边3.尽量使用where语句4.尽量使用多表查询，少用子查询5.尽量不要使用集合运算，参与运算的数据多效率就低...

2018-02-24 09:32:03 155

原创 hive分桶笔记

hive分桶，一般在hive数据表中查询出来的数据插入到分桶表中，一般不在load数据时使用分桶表分桶实例：set hive.enforce.bucketing = true;如果不设置这个分桶不生效set mapreduce.job.reduce = 4;drop table stu_buck;create table stu_buck(Sno int,Sname string,Sex stri...

2018-02-21 21:31:49 712

转载 hive高阶1--sql和hive语句执行顺序、explain查看执行计划、group by生成MR

hive语句执行顺序msyql语句执行顺序代码写的顺序：select ... from... where.... group by... having... order by.. 或者from ... select ...1234代码的执行顺序：from... where...group by... having.... select ... order by...12hive 语...

2018-02-14 21:23:11 1969

转载 MySQL 性能优化神器 Explain 使用分析

简介MySQL 提供了一个 EXPLAIN 命令, 它可以对 SELECT 语句进行分析, 并输出 SELECT 执行的详细信息, 以供开发人员针对性优化.EXPLAIN 命令用法十分简单, 在 SELECT 语句前加上 Explain 就可以了, 例如:EXPLAIN SELECT * from user_info WHERE id < 300;准备为了接下来方便演示 EXPLAIN 的使...

2018-02-14 21:00:52 262

转载 spark 笔记stand alone 和yarn-cluster的部分区别

公司最近的spark集群由原来的standalone迁移到spark on yarn了，在迁移相关的程序时，发现调整还是有一些的，以下分别是两个版本提交的部分shell命令，从命令可以看出其区别，这个区别主要是spark on yarn的工作方式不太一样，造成提交的方式也不太一样。 standalone方式的脚本为:[java] view plain copyspark-submit --...

2018-02-13 12:42:10 1241

原创运行资源优化配置

一个CPU core同一时间只能执行一个线程。而每个Executor进程上分配到的多个task，都是以每个task一条线程的方式，多线程并发运行的spark-submit \--master spark://master1:7077 \ //spark的master地址--class com.dyy.spark.WordCount \ //运行的jar包class--num-executors ...

2018-02-12 19:03:02 572

转载 Hive中的分桶

对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表（或者分区）组织成桶（Bucket）有两个理由：（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列...

2018-02-11 23:43:04 2056

转载 Hive之Bucket 桶表

Bucket 桶表的基本相关概念对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。基本可以这么说分区表是粗粒度的划分，桶在细粒度的划分。当数据量比较大，我们需要更快的完成任务，多个map和reduce进程是唯一的选择。但是如果输入...

2018-02-11 22:26:13 1739

转载 Hadoop Hive基础sql语法

目录　　Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询分析需要的内容，这套SQL 简称Hive SQL，使不熟悉mapreduce 的用户很方便的利用SQL 语言...

2018-02-11 22:12:18 176

原创 mysql join操作

1.Inner joinSelect <select_list> fromtablea ainner join tableb bon a.key=b.key2.left joinSelect <select_list>From tableA ALeft join tableB BON A.Key=B.Key3.right joinSelect <select_list...

2018-02-11 22:05:53 294

原创 SQL执行顺序

FROM <left_table>>ON <join_condition>><join_type> JOIN <right_table>>WHERE <where_condition>>GROUP BY <group_by_list>>HAVING <havi

2018-02-11 21:25:05 168

原创 MYSQL搜索引擎对比

对比项 MyISAM InnoDB主外键不支持支持事务不支持支持行表锁表锁，即使操作一条记录行锁，操作时只锁某一行，也会锁住整个表，不适合不对其他行有影响，适合高并发操作 ...

2018-02-11 21:15:53 266

转载 Name node is in safe mode.（NameNode处于安全模式）

当我给自己的程序打包，然后放入Hadoop中运行时出现异常[java] view plain copy print?17/03/29 22:38:37 INFO client.RMProxy: Connecting to ResourceManager at master/172.18.63.28:8032 17/03/29 22:38

2018-02-07 20:36:08 5454

转载 hive表的存储格式; ORC格式的使用

hive表的源文件存储格式有几类： 1、TEXTFILE 默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 2、SEQUENCEFILE 一种Hadoop API提供的二进制文件，使用方便、可分割、可压缩等特点。 SEQUENCEFILE将数据以的形式序列化到文件中。序列化和

2018-02-05 21:54:21 340

转载 Linux　nc 命令详解

netcat是网络工具中的瑞士军刀，它能通过TCP和UDP在网络中读写数据。通过与其他工具结合和重定向，你可以在脚本中以多种方式使用它。使用netcat命令所能完成的事情令人惊讶。netcat所做的就是在两台电脑之间建立链接并返回两个数据流，在这之后所能做的事就看你的想像力了。你能建立一个服务器，传输文件，与朋友聊天，传输流媒体或者用它作为其它协议的独立客户端。下面是一些使用net

2018-01-30 13:31:40 530

转载 Sqoop import加载HBase过程中，遇到Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:d

在执行hbase sqoop抽取的时候，遇到了一个错误，如下图：在执行程序的过程中，遇到权限问题很正常，也容易让人防不胜防，有问题就想办法解决，这个是关键。解决办法如下：第一步：su hdfs，进入hdfs。第二步：hadoop fs -ls ，瞅瞅user的权限。第三步：修改权限hadoop fs -chmod 777 /

2018-01-30 13:11:02 1622

转载如何杀掉当前正在执行的hadoop任务

列出当前hadoop正在执行的jobs:[[email protected] hadoop-0.20.2-cdh3u3]$ hadoop job -list10 jobs currently runningJobId State StartTime UserName Priority SchedulingInfojob_20

2018-01-24 22:43:50 2460

原创 hive临时设置

set mapreduce.job.reduces =3 临时生效设置reduce数量

2018-01-17 20:36:06 654

原创 Hive的几种排序

1、order by 全局排序，相当于一个reduce，2、sort by 按每一个reduce内部排序，不是全局排序3、distribute by 类似于MRPartition,进行分区，一般要结合sort by使用4、cluster by 当distribute和sort字段相同时，就是cluster by

2018-01-17 20:35:46 585

转载 Kafka集群部署

Kafka集群部署 1）解压安装包[atguigu@hadoop102 software]$ tar -zxvfkafka_2.11-0.11.0.0.tgz -C /opt/module/2）修改解压后的文件名称[atguigu@hadoop102 module]$ mvkafka_2.11-0.11.0.0/ kafka3）在/opt/module/kafka目录下创建lo

2018-01-12 13:04:47 325

转载 ALS推荐算法在Spark上的优化从50分钟到3分钟

从50多分钟到3分钟的优化某推荐系统需要基于Spark用ALS算法对近一天的数据进行实时训练, 然后进行推荐. 输入的数据有114G, 但训练时间加上预测的时间需要50多分钟, 而业务的要求是在15分钟左右, 远远达不到实时推荐的要求, 因此, 我们与业务侧一起对Spark应用进行了优化.另外提一下, 该文最好与之前我写的另一篇blog 一起看, 因为一些细节我不会再在该文中描述

2018-01-10 22:50:33 4578 5

转载 Spark 性能相关参数配置详解

每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们会被分配到executor上面去执行。Stage指的是一组并行运行的task，stage内部是不能出现shuffle的，因为shuffle的就像篱笆一样阻止了并行task的运行，遇到shuffle就意味着到了stage的边界。CPU的core数量，每个executor可以占用一个或多个co

2018-01-10 22:03:12 458

转载关于Spark运行流式计算程序中跑一段时间出现GC overhead limit exceeded

最近在升级一个框架的时候，发现某个流式计算程序每隔一定的时间就会出现GC overhead limit exceeded的错误问题。这个问题肯定是内存不够，但是初始设置的内存是够的啊，于是进行各种内存优化，如将变量定义在循环体外等控制，但是发现只是将这个间隔时间往后推了一下而已。还是没有找到症结所在。后来再分析了下，可能是哪些变量占了内存

2018-01-10 21:52:10 1150 1

apache-tomcat-7.0.22-windows-x86.zip

空空如也