chige0690
码龄9年
关注
提问 私信
  • 博客:16,357
    16,357
    总访问量
  • 暂无
    原创
  • 1,280,975
    排名
  • 1
    粉丝
  • 0
    铁粉
  • 加入CSDN时间: 2016-04-15
博客简介:

chige0690的博客

查看详细资料
个人成就
  • 获得5次点赞
  • 内容获得0次评论
  • 获得29次收藏
创作历程
  • 20篇
    2019年
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

sqoop基本操作

1.导出(mysql->hive)sqoop export --connect "jdbc:mysql://ip:port/condata?useUnicode=true&characterEncoding=utf-8" \--username root \--pass...
转载
发布博客 2019.06.20 ·
178 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sqoop faq

本文是整理使用sqoop过程中出现过的问题以及对应的解决方案。1.Can't parse input data: '\N' 空字符串造成的解决方式:--input-null-string "\\\\N" --input-null-non-string "\\\\N" \2. Can'...
转载
发布博客 2019.06.20 ·
361 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kylin配置文件加载源码解读

配置文件的加载是在类AdminService中。我们来看下前后端是如何调用的:1. getEnv(前端)$scope.getEnv = function () { AdminService.env({}, function (env) { $scope.envStr...
转载
发布博客 2019.06.20 ·
397 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kylin页面System操作源码解读

System中的主要操作在AdminController和CacheController一. 源码结构前端源码:angular:下面为自定义方法:* Method type is PUT * Additional Query parameter action=config is ...
转载
发布博客 2019.06.20 ·
333 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase-put调优

问题:数据put一直报table=daas:unicom_stat, attempt=11/35 failed=8ops, last exception: org.apache.hadoop.hbase.RegionTooBusyException: org.apache.hadoop.h...
转载
发布博客 2019.06.19 ·
1431 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CDH之HBase集群FAQ

1.regionserver意外挂掉,regionserver日志没有明显异常,datanode有异常日志S201:50010:DataXceiver error processing READ_BLOCK operation src: /10.0.5.218:56496 dst: /10...
转载
发布博客 2019.06.19 ·
315 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mr程序实现map side join和reduce side join原理

前提:两个表进行inner join1、map side join效率比reduce side join高,不会产生shuffle第一步:使用DistributeCache.addCacheFile将一个文件分布式的缓存到每一台机器本地,这一步要在job启动之前设置,也就是在启动函数内j...
转载
发布博客 2019.06.19 ·
201 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop shell命令随手记

1. 提交mr任务:hadoop jar <jar> [mainClass] args..如:hadoop jar hadoop-examples-1.0.0.jar wordcount /text/input /test/output如果打的jar包设置了mainclas...
转载
发布博客 2019.06.19 ·
124 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive-order by 时null值处理

order by 时,desc NULL 值排在首位,ASC时NULL值排在末尾可以通过NULLS LAST、NULLS FIRST 控制RANK() OVER (ORDER BY column_name DESC NULLS LAST) ...
转载
发布博客 2019.06.19 ·
4298 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

HIVE-计算累计和

eg:统计1-12月的累积销量,即1月为1月份的值,2月为1.2月份值的和,3月为123月份的和,12月为1-12月份值的和SELECT month,SUM(amount) month_amount, SUM( SUM(amount)) OVER (ORDER BY month RO...
转载
发布博客 2019.06.19 ·
2677 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

hive表在join on上的过滤和在where上过滤的对比

当两张表A和B在join时,条件筛选放在表join时的on上面和放在where上面得到的结果是不一样的。如下创建两张表:A表结构以及数据:id name grade dept1 lijie1 100 102 lijie2 90 203 ...
转载
发布博客 2019.06.19 ·
557 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive锁

Hive中定义了两种锁的模式:共享锁(S)和排它锁(X),顾名思义,多个共享锁(S)可以同时获取,但是排它锁(X)会阻塞其它所有锁。如果select一张表,这张表则会进入shared模式,增加、插入、删除、修改数据和修改表名等操作都会在shared锁被释放之后再执行,会一直等待。如果插入、...
转载
发布博客 2019.06.19 ·
788 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

统计不同用户两两之间出现的相同产品

数据样例:U3 AU1 BU2 AU4 A--结果:U1,U2 A,BU1,U3 AU1,U4 AU2,U3 AU2,U4 AU3,U4 A要点:先按照用户分区排序,使用窗口函数做出标记,然后按照左表rank值小于右表rank值和两两用户不为相同用户的规则关联,使用列转...
转载
发布博客 2019.06.19 ·
156 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive-sum(a+b)与sum(a)+sum(b)的区别

hive> select * from tmp.test_sum;OK1 2NULL 34 21 NULLselect sum(a+b),sum(a)+sum(b) from tmp.test_sum;结果:9 13...
转载
发布博客 2019.06.19 ·
1913 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

Kylin 优化

Cube Build 过程中常见遇到的是性能问题,例如 SQL 查询过慢、Cube 构建时间过长甚至失败、 Cube 膨胀率过高等等。究其原因,大多数问题都是由于 Cube 设计不当造成的。因此,合理地进行 Cube 优化就显得尤为重要。一、Cube优化方案:1. 维度精简去除查询中不会...
转载
发布博客 2019.06.19 ·
240 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kylin使用问题记录

1. limit 5 offset 2kylin中的limit 5 offset 2中的offset不是分页,而是第几条数据,2代表从第三条开始,最初下标为0.2. 用户admin找不到kylin在save model和cube时报错:用户admin找不到,kylin_job_conf....
转载
发布博客 2019.06.19 ·
593 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kylin build流程

1. 构建一个中间平表(Hive Table):将Model中的fact表和look up表构建成一个大的Flat Hive Table。2. 重新分配Flat Hive Tables。3. 从事实表中抽取维度的Distinct值。4. 对所有维度表进行压缩编码,生成维度字典。5. 计...
转载
发布博客 2019.06.19 ·
306 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HIVE SQL优化

作为数据仓库的利器,大部分的数仓工作者大部分时间都在写Hive Sql,根据作者经验整理出单纯的Hive Sql调优。一. 普通场景下的sql优化1. 列裁剪由于数仓底层存储大都采用列式存储,如ORC/PARQUET,所以可以采用列裁剪的方式减少扫描的字段。2. 分区裁剪即查询数据表...
转载
发布博客 2019.06.19 ·
648 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

hive日常调优参数整理

--压缩配置:-- map/reduce 输出压缩(一般采用序列化文件存储)set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.Gzip...
转载
发布博客 2019.06.19 ·
698 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

hive ddl随手记

1.beeline cli嵌入模式:beeline!connect jdbc:hive2://localhost:10000输入用户名和密码远程模式beeline -u jdbc:hive2://s252:10000 -n rootbeeline -u "jdbc:hive2:/...
转载
发布博客 2019.06.19 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多