大数据
猪笨是念来过倒
猪是念来过倒
展开
-
大数据学习(一):Hue Server简单介绍
一 Hue架构图二 Hue支持组件(Hue webserver)Hue支持展示多种组件,目前支持HDFS、Hive、YARN/MapReduce、Oozie、Solr、ZooKeeper以及Spark。Hue是建立在Django Python的Web框架上的Web应用程序,采用了MTV(模型M-模板T-视图V)的软件设计模式。(Django Python是开放源代码的Web应...原创 2019-01-28 11:25:36 · 1827 阅读 · 0 评论 -
大数据学习(二):python3操作hive
使用python3操作hive需要简单的几个步骤:一、安装依赖:操作环境:linuxpipinstall saslpipinstall thriftpipinstall thrift-saslpipinstall PyHive安装过程中,在安装sasl的时候可能会出现 “缺少sasl.h” 的错误,此时,需要执行以下命令:apt-get updatesu...原创 2019-02-11 16:13:42 · 1991 阅读 · 0 评论 -
大数据学习(三):python2操作hive
需要安装pyhs2,其余安装和python3的依赖包差不多,少一个pyhive# coding: u8import pyhs2from pyhs2.error import Pyhs2Exceptionclass Row(dict): """A dict that allows for object-like property access syntax.""" ...原创 2019-03-07 16:01:23 · 593 阅读 · 0 评论 -
大数据学习(五):如何使用 Livy提交spark批量任务
Livy是一个开源的REST 接口,用于与Spark进行交互,它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令,启动livy服务器。./bin/livy-server这里假设spark使用yarn模式,所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话,直接使用本地文件即可(注意必须配置liv...原创 2019-05-21 15:06:15 · 6691 阅读 · 5 评论 -
大数据学习(四):Livy的安装配置及pyspark的会话执行
一个基于Spark的开源REST服务,它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能:提交Scala、Python或是R代码片段到远端的Spark集群上执行; 提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行; 提交批处理应用在集群中运行。 从Livy所提供的基本功能可以看到Livy涵...原创 2019-05-21 15:12:18 · 1772 阅读 · 0 评论 -
大数据学习(六):Python操作hdfs(包括追加数据文件到hdfs文件)
#!coding:utf-8import sys from hdfs.client import Client#设置utf-8模式reload(sys)sys.setdefaultencoding( "utf-8" )#关于python操作hdfs的API可以查看官网:#https://hdfscli.readthedocs.io/en/latest/api.html ...原创 2019-05-21 15:18:55 · 9131 阅读 · 0 评论 -
大数据学习(七)Python3操作livy(使用pylivy模块)
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端,可以在Spark集群上轻松实现远程代码执行。安装$ pip install -U livy请注意,pylivy需要Python 3.6或更高版本。用法所述LivySession类的主界面提供由pylivy:from livy import LivySession...原创 2019-05-27 14:16:17 · 1740 阅读 · 0 评论