自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

转载 sqoop基本操作

1.导出(mysql->hive)sqoop export --connect "jdbc:mysql://ip:port/condata?useUnicode=true&characterEncoding=utf-8" \--username root \--pass...

2019-06-20 21:58:00 157

转载 sqoop faq

本文是整理使用sqoop过程中出现过的问题以及对应的解决方案。1.Can't parse input data: '\N' 空字符串造成的解决方式:--input-null-string "\\\\N" --input-null-non-string "\\\\N" \2. Can'...

2019-06-20 21:49:00 325

转载 Kylin配置文件加载源码解读

配置文件的加载是在类AdminService中。我们来看下前后端是如何调用的:1. getEnv(前端)$scope.getEnv = function () { AdminService.env({}, function (env) { $scope.envStr...

2019-06-20 09:38:00 363

转载 Kylin页面System操作源码解读

System中的主要操作在AdminController和CacheController一. 源码结构前端源码:angular:下面为自定义方法:* Method type is PUT * Additional Query parameter action=config is ...

2019-06-20 09:24:00 297

转载 Hbase-put调优

问题:数据put一直报table=daas:unicom_stat, attempt=11/35 failed=8ops, last exception: org.apache.hadoop.hbase.RegionTooBusyException: org.apache.hadoop.h...

2019-06-19 22:26:00 1382

转载 CDH之HBase集群FAQ

1.regionserver意外挂掉,regionserver日志没有明显异常,datanode有异常日志S201:50010:DataXceiver error processing READ_BLOCK operation src: /10.0.5.218:56496 dst: /10...

2019-06-19 22:22:00 295

转载 mr程序实现map side join和reduce side join原理

前提:两个表进行inner join1、map side join效率比reduce side join高,不会产生shuffle第一步:使用DistributeCache.addCacheFile将一个文件分布式的缓存到每一台机器本地,这一步要在job启动之前设置,也就是在启动函数内j...

2019-06-19 22:16:00 173

转载 hadoop shell命令随手记

1. 提交mr任务:hadoop jar <jar> [mainClass] args..如:hadoop jar hadoop-examples-1.0.0.jar wordcount /text/input /test/output如果打的jar包设置了mainclas...

2019-06-19 22:13:00 102

转载 hive-order by 时null值处理

order by 时,desc NULL 值排在首位,ASC时NULL值排在末尾可以通过NULLS LAST、NULLS FIRST 控制RANK() OVER (ORDER BY column_name DESC NULLS LAST) ...

2019-06-19 22:01:00 4155

转载 HIVE-计算累计和

eg:统计1-12月的累积销量,即1月为1月份的值,2月为1.2月份值的和,3月为123月份的和,12月为1-12月份值的和SELECT month,SUM(amount) month_amount, SUM( SUM(amount)) OVER (ORDER BY month RO...

2019-06-19 21:58:00 2618

转载 hive表在join on上的过滤和在where上过滤的对比

当两张表A和B在join时,条件筛选放在表join时的on上面和放在where上面得到的结果是不一样的。如下创建两张表:A表结构以及数据:id name grade dept1 lijie1 100 102 lijie2 90 203 ...

2019-06-19 21:52:00 525

转载 hive锁

Hive中定义了两种锁的模式:共享锁(S)和排它锁(X),顾名思义,多个共享锁(S)可以同时获取,但是排它锁(X)会阻塞其它所有锁。如果select一张表,这张表则会进入shared模式,增加、插入、删除、修改数据和修改表名等操作都会在shared锁被释放之后再执行,会一直等待。如果插入、...

2019-06-19 21:40:00 757

转载 统计不同用户两两之间出现的相同产品

数据样例:U3 AU1 BU2 AU4 A--结果:U1,U2 A,BU1,U3 AU1,U4 AU2,U3 AU2,U4 AU3,U4 A要点:先按照用户分区排序,使用窗口函数做出标记,然后按照左表rank值小于右表rank值和两两用户不为相同用户的规则关联,使用列转...

2019-06-19 21:36:00 132

转载 hive-sum(a+b)与sum(a)+sum(b)的区别

hive> select * from tmp.test_sum;OK1 2NULL 34 21 NULLselect sum(a+b),sum(a)+sum(b) from tmp.test_sum;结果:9 13...

2019-06-19 21:28:00 1847

转载 Kylin 优化

Cube Build 过程中常见遇到的是性能问题,例如 SQL 查询过慢、Cube 构建时间过长甚至失败、 Cube 膨胀率过高等等。究其原因,大多数问题都是由于 Cube 设计不当造成的。因此,合理地进行 Cube 优化就显得尤为重要。一、Cube优化方案:1. 维度精简去除查询中不会...

2019-06-19 20:26:00 218

转载 Kylin使用问题记录

1. limit 5 offset 2kylin中的limit 5 offset 2中的offset不是分页,而是第几条数据,2代表从第三条开始,最初下标为0.2. 用户admin找不到kylin在save model和cube时报错:用户admin找不到,kylin_job_conf....

2019-06-19 20:16:00 568

转载 Kylin build流程

1. 构建一个中间平表(Hive Table):将Model中的fact表和look up表构建成一个大的Flat Hive Table。2. 重新分配Flat Hive Tables。3. 从事实表中抽取维度的Distinct值。4. 对所有维度表进行压缩编码,生成维度字典。5. 计...

2019-06-19 20:11:00 265

转载 HIVE SQL优化

作为数据仓库的利器,大部分的数仓工作者大部分时间都在写Hive Sql,根据作者经验整理出单纯的Hive Sql调优。一. 普通场景下的sql优化1. 列裁剪由于数仓底层存储大都采用列式存储,如ORC/PARQUET,所以可以采用列裁剪的方式减少扫描的字段。2. 分区裁剪即查询数据表...

2019-06-19 20:05:00 609

转载 hive日常调优参数整理

--压缩配置:-- map/reduce 输出压缩(一般采用序列化文件存储)set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.Gzip...

2019-06-19 18:14:00 671

转载 hive ddl随手记

1.beeline cli嵌入模式:beeline!connect jdbc:hive2://localhost:10000输入用户名和密码远程模式beeline -u jdbc:hive2://s252:10000 -n rootbeeline -u "jdbc:hive2:/...

2019-06-19 18:11:00 114

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除