自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 superset使用一

1、使用的python3.6,然后配置mysql数据库,报错No module named ‘MySQLdb'MySQLdb只支持Python2.*,还不支持3.*可以用PyMySQL代替。安装方法:pip3 install PyMySQL需要在下面的 cd /usr/local/lib/python3.6/site-packages/sqlalchemy/dialects/my...

2018-10-31 10:08:07 6516 1

原创 superset安装

只要有了环境,安装简单环境需求。centos7,内核版本3.0以上,python版本3.6以上安装依赖sudo yum upgrade python-setuptoolssudo yum install gcc libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openld...

2018-10-30 19:03:20 512

原创 zepplin学习笔记一

zepplin的安装参照转载的两篇博客使用cm集群,安装解压zepplin,参照https://blog.csdn.net/jin6872115/article/details/83415841前三条进行配置,配置完后,可以直接使用spark进度hdfs文件读取和hive数据的访问。按照https://blog.csdn.net/jin6872115/article/details/835...

2018-10-30 10:43:57 382

转载 一篇全面的zepplin教程

https://www.jianshu.com/p/090f02005e07 1.Zeppelin是什么?Apache Zeppelin是一款基于Web的Notebook(类似于jupyter notebook),支持交互式地数据分析。Zeppelin可实现你所需要的:数据采集 数据发现 数据分析 数据可视化和协作支持多种语言,默认是Scala(背后是Spark shel...

2018-10-29 09:45:37 18337 1

转载 CDH安装配置zeppelin-0.7.3以及配置spark查询hive表

转自1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的,如果需要自己按照环境编译也可以,但是要很长时间编译,这个版本包含了很多插件,我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd  /zeppelin-0.7.3-bin-all/confcp  zeppelin-env...

2018-10-26 15:31:26 259

原创 hadoop跨集群之间迁移hive数据

进行hive库迁移过程中碰到的问题1、hdfs数据迁移过程中,使用hadoop distcp /apps/hive/warehouse/userinfo hdfs://10.11.32.76:8020/apps/hive/warehouse/将老库的hive的数据复制到新库中,在测试环境报权限错误,需要添加如下配置 <property>        <name&g...

2018-10-22 09:54:22 3865

原创 基于CM搭建的CDH集群之hive组件升级过程(hive0.13.1升级到hive-1.2.1且确保纳入CM管理)

 1、在hive0.13.1版本下创建lib121目录cd /opt/cloudera/parcels/CDH/lib/hive;mkdir lib1212、下载hive1.2.1版本,并将该版本lib下所有文件拷贝到lib121中3、修改/opt/cloudera/parcels/CDH/lib/hive/bin/hive中HIVE_LIB变量HIVE_LIB=${HIVE_HOME...

2018-10-19 08:58:25 806

原创 Kylin概念理解

Cube是联机分析的关键。他们是一种多维结构,包含原始事实数据、聚合数据,这些数据聚合允许用户快速进行复杂的查询,Mdx语言就应用它更是如鱼得水。Cube包含两个基本概念:维度和度量维度(Dimension):维度提供了分类描述,表示一类分析角度,用户通过维度分析度量数据。比如三个维度:时间、产品、地域度量(Measures):度量表示用来聚合分析的数字信息,度量的集合组合成了一个特殊...

2018-10-16 15:10:59 428

转载 spark 分区 提交 调优

转自:https://blog.csdn.net/u014384314/article/details/80797385一 spark RDD分区原则在Spark的Rdd中,Rdd默认是分区的。有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,则需要重新设置一个比较合理的分区数。或者需要把Rdd的分区数量调大。还有就是通过设置一个R...

2018-10-11 17:03:28 1975

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除