- 博客(6)
- 收藏
- 关注
原创 hive面试题
hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除 外部表:不加载数据到 hive 所在的 hdfs 目录,删除时,只删除表结构(3)分区作用:防止数据倾斜(4)UDF 函数:用户自定义的函数 (主要解决格式,计算问题 ),需要继承 UDF 类java 代码实现class TestUDFHive extends UDF {pub...
2018-11-11 00:13:55 4626 2
原创 索引优化
1,创建索引对于查询占主要的应用来说,索引显得尤为重要。很多时候性能问题很简单的就是因为我们忘了添加索引而造成的,或者说没有添加更为有效的索引导致。如果不加索引的话,那么查找任何哪怕只是一条特定的数据都会进行一次全表扫描,如果一张表的数据量很大而符合条件的结果又很少,那么不加索引会引起致命的性能下降。但是也不是什么情况都非得建索引不可,比如性别可能就只有两个值,建索引不仅没什么优势,还会影响到更...
2018-11-10 23:32:36 126
原创 线程安全、线程同步、线程间通信
一、线程安全多个线程在执行同一段代码的时候,每次的执行结果和单线程执行的结果都是一样的,不存在执行结果的二义性,就可以称作是线程安全的。讲到线程安全问题,其实是指多线程环境下对共享资源的访问可能会引起此共享资源的不一致性。因此,为避免线程安全问题,应该避免多线程环境下对此共享资源的并发访问。线程安全问题多是由全局变量和静态变量引起的,当多个线程对共享数据只执行读操作,不执行写操作时,一...
2018-11-10 22:22:32 235
原创 Spark实现WordCount
首先,编写第一个Spark应用程序 ,我们是如何建立起来的,其入口在哪里呢,需要创建两个对象。 一:val conf = new SparkConf() .setAppName("WordCount") .setMaster("local") 创建SparkConf对象...
2018-11-08 16:08:31 9754 2
原创 hive中创建表命令
情况1:设置分区:DROP TABLE IF EXISTS adm_investor_activity;CREATE TABLE IF NOT EXISTS adm_investor_activity( investor_id bigint comment '投资人id' , score double comment '投资人活跃度评分')comment 'a...
2018-11-07 14:51:24 550
原创 concat与concat_ws区别
select concat('大','小') as size from 表查询出结果为:大小select concat('大',NULL) as size from 表查询出结果为:nullconcat中又一个参数为NULL,查出来的就为NULL select concat_ws('_','大','小','中') as size from 表查询出结果为:大_小_中...
2018-11-07 14:34:43 6795 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人