一、背景
使用Python,打通Impala通道,实现取数自动化,或是作为数据分析的数据源。
二、Apache Impala

Impala是一个开源的,基于Hadoop的分析型数据库。
Impala可以查询存储在HDFS或者HBase中的数据。
Impala通过专用分布式查询引擎,绕过MapReduce直接访问数据,查询性能远高于Hive。
三、impyla
基于HiveServer2 实现的分布式查询引擎(如Impala、Hive)的Python客户端。
完全符合DB API 2.0(PEP 249)规范。
使用Kerberos、LDAP、SSL。
支持将数据转换为pandas的DataFrame,轻松集成到Python数据栈(如scikit-learn、matplotlib等)。
四、类封装
from impala.dbapi import connect
from impala.error import ProgrammingError
from utils.db.sql import SQL
class Impala(SQL):
DESC_EXEC_SUCCESS = "执行成功"
def __init__(self, host, port, database, user, password=None):
"""Impala工具类
:param host: IP
:param

本文介绍如何使用Python的impyla库连接Apache Impala,进行数据分析。Impala是一个高性能的Hadoop分析数据库,而impyla提供了一个符合DB API 2.0规范的Python客户端。通过封装类和tkinter界面,可以实现一键刷新元数据和按日统计查询,方便自动化取数和数据分析。完整代码可在GitHub上找到。
最低0.47元/天 解锁文章
558

被折叠的 条评论
为什么被折叠?



