2018年11月_我的海_

11月

转载 7.Spark 从 Kafka 读数并发问题

经常使用 Apache Spark 从 Kafka 读数的同学肯定会遇到这样的问题：某些 Spark 分区已经处理完数据了，另一部分分区还在处理数据，从而导致这个批次的作业总消耗时间变长；甚至导致 Spark 作业无法及时消费 Kafka 中的数据。为了简便起见，本文讨论的 Spark Direct 方式读取 Kafka 中的数据，这种情况下 Spark RDD 中分区和 Kafka 分区是一一对...

2018-11-26 16:13:13 260 1

转载 6.通过Hive将数据写入ElasticSearch

通过Hive将数据写入到ElasticSearch ElasticSearch 2016-11-07 13:05:20 9887 0评论下载为PDF 为什么无法评论和登录　　我在《使用Hive读取ElasticSearch中的数据》文章中介绍了如何使用Hive读取ElasticSearch中的数据，本文将接着上文继续介绍如何使用Hive将数据写入到ElasticSearch中。在使用...

2018-11-26 16:12:25 1168

转载 5.hive解析json数据

使用 Hive 自带的函数解析 Json 数组在介绍如何处理之前，我们先来了解下 Hive 内置的 explode 函数，官方的解释是：explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used...

2018-11-26 16:11:03 444

原创 4.centos7卸载了系统自带的2.7源无法使用解决方法,及编译问题

备份/etc/yum.repos.d下的文件 -rw-r--r--. 1 root root 1664 8月 30 2017 CentOS-Base.repo -rw-r--r--. 1 root root 1309 8月 30 2017 CentOS-CR.repo -rw-r--r--. 1 root root 649 8月 30 2017 CentOS-Debuginfo.re...

2018-11-26 16:09:23 223

原创 3.cdh5.7 hue3.9编译集成问题(tar)

环境依赖参考对应版本: http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.7.2/manual.html 1.避免在编译的时候缺少libmysqlclient错误使用rpm安装解压后rpm -qa | grep -i mysql才能显示所有的mysql服务在编译hue时候会无法识别到mysql的环境, 注意在安...

2018-11-26 15:59:10 223

query-impala-2000.txt

豆瓣用户广播爬取备份

2019-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人