2018年10月_jin6872115

原创 superset使用一

1、使用的python3.6，然后配置mysql数据库，报错No module named ‘MySQLdb'MySQLdb只支持Python2.*，还不支持3.*可以用PyMySQL代替。安装方法：pip3 install PyMySQL需要在下面的 cd /usr/local/lib/python3.6/site-packages/sqlalchemy/dialects/my...

2018-10-31 10:08:07 6516 1

原创 superset安装

只要有了环境，安装简单环境需求。centos7,内核版本3.0以上，python版本3.6以上安装依赖sudo yum upgrade python-setuptoolssudo yum install gcc libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openld...

2018-10-30 19:03:20 512

原创 zepplin学习笔记一

zepplin的安装参照转载的两篇博客使用cm集群，安装解压zepplin，参照https://blog.csdn.net/jin6872115/article/details/83415841前三条进行配置，配置完后，可以直接使用spark进度hdfs文件读取和hive数据的访问。按照https://blog.csdn.net/jin6872115/article/details/835...

2018-10-30 10:43:57 382

转载一篇全面的zepplin教程

https://www.jianshu.com/p/090f02005e07 1.Zeppelin是什么?Apache Zeppelin是一款基于Web的Notebook(类似于jupyter notebook)，支持交互式地数据分析。Zeppelin可实现你所需要的：数据采集数据发现数据分析数据可视化和协作支持多种语言，默认是Scala(背后是Spark shel...

2018-10-29 09:45:37 18337 1

转载 CDH安装配置zeppelin-0.7.3以及配置spark查询hive表

转自1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的，如果需要自己按照环境编译也可以，但是要很长时间编译，这个版本包含了很多插件，我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd /zeppelin-0.7.3-bin-all/confcp zeppelin-env...

2018-10-26 15:31:26 259

原创 hadoop跨集群之间迁移hive数据

进行hive库迁移过程中碰到的问题1、hdfs数据迁移过程中，使用hadoop distcp /apps/hive/warehouse/userinfo hdfs://10.11.32.76:8020/apps/hive/warehouse/将老库的hive的数据复制到新库中，在测试环境报权限错误，需要添加如下配置 <property> <name&g...

2018-10-22 09:54:22 3865

原创基于CM搭建的CDH集群之hive组件升级过程（hive0.13.1升级到hive-1.2.1且确保纳入CM管理）

1、在hive0.13.1版本下创建lib121目录cd /opt/cloudera/parcels/CDH/lib/hive;mkdir lib1212、下载hive1.2.1版本,并将该版本lib下所有文件拷贝到lib121中3、修改/opt/cloudera/parcels/CDH/lib/hive/bin/hive中HIVE_LIB变量HIVE_LIB=${HIVE_HOME...

2018-10-19 08:58:25 806

原创 Kylin概念理解

Cube是联机分析的关键。他们是一种多维结构，包含原始事实数据、聚合数据，这些数据聚合允许用户快速进行复杂的查询，Mdx语言就应用它更是如鱼得水。Cube包含两个基本概念：维度和度量维度（Dimension）:维度提供了分类描述，表示一类分析角度，用户通过维度分析度量数据。比如三个维度：时间、产品、地域度量（Measures）:度量表示用来聚合分析的数字信息，度量的集合组合成了一个特殊...

2018-10-16 15:10:59 428

转载 spark 分区提交调优

转自：https://blog.csdn.net/u014384314/article/details/80797385一 spark RDD分区原则在Spark的Rdd中，Rdd默认是分区的。有时候需要重新设置Rdd的分区数量，比如Rdd的分区中，Rdd分区比较多，但是每个Rdd的数据量比较小，则需要重新设置一个比较合理的分区数。或者需要把Rdd的分区数量调大。还有就是通过设置一个R...

2018-10-11 17:03:28 1975

jin6872115的博客