大数据
Mask_V
这个作者很懒,什么都没留下…
展开
-
从Hive导出数据到Oracle数据库--Sqoop
原文地址:https://blog.csdn.net/waterkong/article/details/78708809始发与个人博客:https://kongdada.github.io/ 实习老大让我把Hive中的数据导入Oracle数据库。摸索成功后记录如下: 首先解释一下各行代码:sqoop export# 指定要导入到Oracle的那张表(通常与hive中的表同名)-...转载 2018-07-23 13:45:29 · 4084 阅读 · 1 评论 -
Hadoop中两表JOIN的处理方法
原文地址:http://dongxicheng.org/mapreduce/hadoop-join-two-tables/1. 概述 在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后...转载 2018-07-19 20:20:51 · 209 阅读 · 0 评论 -
spark df插入hive表后小文件数量多,如何合并?
原文地址:https://www.cnblogs.com/yy3b2007com/p/7113936.html 在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题。一般情况下通过hive的参数设置: val conf = new SparkConf().setAppName("MySparkJob") //.setMas...转载 2018-11-02 16:37:07 · 3921 阅读 · 3 评论 -
azkaban安装部署
原文地址:https://www.cnblogs.com/heml/p/6552818.html#_label2?tdsourcetag=s_pctim_aiomsg目录Azkaban 源码下载编译 安装回到顶部AzkabanMySQLAzkaban使用mysql存储很多状态,AzkabanWebServer和AzkabanExecutorServer都会使用mysql...转载 2018-11-08 11:00:16 · 1059 阅读 · 0 评论 -
.hive-staging_hive文件产生原因
出处:https://www.cnblogs.com/honeybee/p/6401479.htmlhive执行结果moveTask操作失败Apache Hive 2.1.0 ,在执行"INSERT OVERWRITE TABLE ...... select "或者 "insert overwrite directory /tmp/data/hive-test "操作,如果生成的结果文件...转载 2018-12-20 16:14:23 · 7425 阅读 · 3 评论 -
【Zookeeper灵魂】一个关于Paxos算法的故事
作者:大数据研习社 来源:CSDN 原文:https://blog.csdn.net/dajiangtai007/article/details/68488701 版权声明:本文为博主原创文章,转载请附上博文链接!Zookeeper默认采用FastLeaderElection算法,然而FastLeaderElection对于Zookeeper来讲只是相当于paxos中的leader选举。...转载 2019-01-04 10:38:43 · 283 阅读 · 0 评论 -
大数据时代行为数据
原文地址:https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_8679573479868512559%22%7D&n_type=0&p_from=1大数据时代的弊端,就是被透明化的隐私安全。我不知道大家有没有这样的生活经历:早上还在用浏览器搜“女生喜欢什么样的口红”,...转载 2019-02-14 11:23:14 · 1773 阅读 · 0 评论