aimee12345-CSDN博客

原创 hive 和sql有什么不同

1 建表不一样，hive有按行分割，按字段分割，sql没有 .2 hive 不支持等值连接，sql支持等值连接，比如　SQL中对两表内联可以写成：select * from dual a,dual b where a.key = b.key; Hive中应为：select * from dual a join dual b on a.key = b.key; ...

2018-09-14 17:14:01 8268

原创 hive周期任务布署之crontab+nohup打印日志不完整解决方法

首先认识几个标识符： * /dev/null 表示空设备文件 * 0 表示stdin标准输入 * 1 表示stdout标准输出 * 2 表示stderr标准错误如果只执行nohup时，日志是打印完整的。crontab有个发送邮件到/var/spool/mail/{current_username}的机制，默认会把除标准输出外的所有其它输出均通过邮件发送给linux的当前用户，则这部分...

2018-09-14 16:49:53 1470

原创 liunx常用命令

查看当前目录的绝对路径 pwd 查看指定目录下的文件 ls 后面如果不跟东西，就显示当前目录下的文件及子目录如果跟东西，分2种：相对路径（相对于当前目录）如ls Desktop，指显示当前目录下的Desktop文件/目录的信息绝对路径如ls /root/Desktop，显示绝对路径/root/Desktop文件/目录的信息如果除了路径外，还跟了带小短线的参数，如-...

2018-09-13 18:08:16 247

原创 echarts的使用步骤

echarts的使用步骤：1.导入js 的相关依赖。 2.定义一个div块，用于缓存echarts相关表。 3.用echarts init方法初始化div块。 4.初始化option json 对象。 5.将json对象set到echarts 中 6.相应式绘图变化 window.onresize=char.resize;...

2018-09-13 18:03:37 390

原创 mysql性能优化

SQL语句使用层面的优化尽量不使用 select *，而是要具体指定字段，比如select id, name…；尽量不使用不等于<>；不使用is null/is not null（虽然也会使用索引，但是性能损耗是由于default null的字段要比not null的字段多出额外的存储空间来标识这个字段的值是不是null）；不使用or连接不同的字段；不使用not i...

2018-09-10 20:13:38 155

原创 select,group by,order by，where的关系，关键字having 的用法

比如 select id,uid,name,score as s from student; order by 后面可以用score 的别名s，因为order by 是根据select 的结果进行排序的。 group by 和where 就不能用score 的别名s，因为group by 和where 是条件，select 是结果，根据条件限制在去查询结果。having 一般和group ...

2018-09-09 23:25:33 1122

原创 HIVE数据倾斜的可能原因有哪些,主要解决方法有哪些

数据倾斜理解：数据层的分布式处理过程中，出现明显的Map或Reduce过程的数据IO 的量级有巨大变化。可能原因，分两类：真倾斜和假倾斜一、假倾斜：本身数据无倾斜，但处理时不均衡导致的数据倾斜现象 1）原因：机器配置不一、网络带宽及其通信不一，导致相同数据量处理情况下，任务的执行程度有明显的差异。解决方法：均衡机器配置，标签式解决方法属于更高级更生产化的解决...

2018-09-07 15:08:20 2191 2

原创 hive内外表的区别

内表：创建表的时候，没有external关键字，元数据和数据本身均被hive管理。删除表则全部删除。外表：创建表的时候，有external关键字，元数据被hive管理，数据本身存储在hdfs,不受hive管理。删除表则只删除元数据，数据本身不变。...

2018-09-07 10:54:21 579 1

原创 hive数据模型

分桶与分区的区别： 1）分区和分桶最大的区别就是分桶随机分割数据库，分区是非随机分割数据库。分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助，水平划分 2）分桶是垂直划分，桶是通过对指定列进行哈希计算来实现的，通过哈希值将一个列名下的数据切分为一组桶，并使每个桶对应于该列名...

2018-09-07 10:14:02 1137

原创冒泡排序

冒泡排序思想： 1. 比较相邻的元素。如果第一个比第二个大，就交换他们两个。 2. 对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。在这一点，最后的元素应该会是最大的数。 3. 针对所有的元素重复以上的步骤，除了最后一个。 4. 持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。 public class maopao { public s...

2018-08-31 22:17:19 164

原创二分查找

二分查找：折半查找，查找的内容必须是有序的。给定一批排序好的数组。 int numbers[] = {1,3,4,6,8,9,10,23,45} public static int binarySearch(int[] numbers, int lowPos, int highPos, int aidNum){ if(lowPos <0 || highPos...

2018-08-31 20:55:24 254

原创 git常见的应用场景

.撤销修改场景1 工作空间文件已修改，但是没有add到缓存区。解决办法用版本库的指定文件覆盖工作空间的指定文件 git checkout – filepath 场景2 工作空间已修改，以添加到缓存区，但是没有加到版本库解决办法：将缓存区的内容删除，对工作区没有做任何改动，相当于回到场景1 git re...

2018-08-29 17:46:59 213

aimee12345的博客