自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 hive面试题

hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除    外部表:不加载数据到 hive 所在的 hdfs 目录,删除时,只删除表结构(3)分区作用:防止数据倾斜(4)UDF 函数:用户自定义的函数 (主要解决格式,计算问题 ),需要继承 UDF 类java 代码实现class TestUDFHive extends UDF {pub...

2018-11-11 00:13:55 4626 2

原创 索引优化

1,创建索引对于查询占主要的应用来说,索引显得尤为重要。很多时候性能问题很简单的就是因为我们忘了添加索引而造成的,或者说没有添加更为有效的索引导致。如果不加索引的话,那么查找任何哪怕只是一条特定的数据都会进行一次全表扫描,如果一张表的数据量很大而符合条件的结果又很少,那么不加索引会引起致命的性能下降。但是也不是什么情况都非得建索引不可,比如性别可能就只有两个值,建索引不仅没什么优势,还会影响到更...

2018-11-10 23:32:36 126

原创 线程安全、线程同步、线程间通信

一、线程安全多个线程在执行同一段代码的时候,每次的执行结果和单线程执行的结果都是一样的,不存在执行结果的二义性,就可以称作是线程安全的。讲到线程安全问题,其实是指多线程环境下对共享资源的访问可能会引起此共享资源的不一致性。因此,为避免线程安全问题,应该避免多线程环境下对此共享资源的并发访问。线程安全问题多是由全局变量和静态变量引起的,当多个线程对共享数据只执行读操作,不执行写操作时,一...

2018-11-10 22:22:32 235

原创 Spark实现WordCount

首先,编写第一个Spark应用程序 ,我们是如何建立起来的,其入口在哪里呢,需要创建两个对象。 一:val conf = new SparkConf()                            .setAppName("WordCount")                            .setMaster("local")    创建SparkConf对象...

2018-11-08 16:08:31 9754 2

原创 hive中创建表命令

情况1:设置分区:DROP TABLE IF EXISTS adm_investor_activity;CREATE TABLE IF NOT EXISTS adm_investor_activity( investor_id bigint comment '投资人id' , score double comment '投资人活跃度评分')comment 'a...

2018-11-07 14:51:24 550

原创 concat与concat_ws区别

select concat('大','小') as size from 表查询出结果为:大小select concat('大',NULL) as size from 表查询出结果为:nullconcat中又一个参数为NULL,查出来的就为NULL select concat_ws('_','大','小','中') as size from 表查询出结果为:大_小_中...

2018-11-07 14:34:43 6795 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除