Jupyter中通过pyspark连接Hive数据库

最新推荐文章于 2024-07-22 02:44:35 发布

Albert_Fang

最新推荐文章于 2024-07-22 02:44:35 发布

阅读量3.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：部署文章标签：数据库 spark hive

本文链接：https://blog.csdn.net/Albert_Fang/article/details/107932131

本文介绍了如何在运行于CentOS 7的Jupyter环境中，利用pyspark连接到Hive 2.3.6数据库。首先确保安装了Spark 2.3.0和Jupyter hub 1.1.0，接着配置Hive-site.xml和添加必要的jar文件，最后在Jupyter中测试连接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

环境

CentOS 7
Hive 2.3.6
Spark 2.3.0
Jupyter hub 1.1.0（notebook，lab通用）
Python 3.7

准备

Spark, Hive已安装完成
Jupyter 通过Anaconda 安装完成
在spark/bin目录中，可通过spark-sql，pyspark连接hive

pyspark测试代码

from pyspark import SparkConf, SparkContext
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
my_dataframe = sqlContext.sql("show databases"

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Albert_Fang

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

数据库领域Hive的数据可视化方案与工具选择

2502_91592937的博客

05-19

666

本文旨在为大数据分析团队提供全面的Hive数据可视化解决方案指南。我们将探讨如何将存储在Hive数据仓库中的海量数据转化为直观、交互式的可视化展示，帮助业务决策者快速获取洞察。范围涵盖从基础概念到高级应用，包括工具选择、架构设计、实现方法和最佳实践。本文首先介绍Hive和数据可视化的基础概念，然后深入探讨各种可视化方案的技术实现。接着通过实际案例展示具体应用，最后提供工具选型建议和未来趋势分析。全文采用理论结合实践的方式，确保读者既能理解原理又能实际应用。Hive。

python读取hive 到 pandas

yy的博客

11-09

1126

代码 from pyhive import hive # 脚本目录用python从hive表中读取表ods_tx3 中列名为 'number' 的列的数据,获取唯一值即 number的集合. ''' pip install sasl pip install thrift pip install thrift-sasl pip install PyHive ''' ''' 报错: thrift.transport.TTransport.TTransportException: TSocke...

参与评论您还未登录，请先登录后发表或查看评论

大数据--pyspark远程连接hive

qq_51641196的博客

12-22

4179

上一篇文章介绍了python连接hive的过程，通过地址+端口号访问到hive并对hive中的数据进行操作，这一篇文章介绍一下怎么通过windows本地pyspark+本地部署好的spark+远程虚拟机的hive，完成本地pyspark对hive的访问。一.环境介绍(1)关于pyspark这个是之前就已经部署好的，本地安装了hadoop、scala、spark之后，配置好对应的系统环境变量，在p...

jupyter访问hive进行数据分析

kngines

06-30

5880

I 写在前面长文为针对华为平台进行数据分析做准备需要经验 Anaconda配置经验需要请留言 hadoop、hive集群配置经验 python开发经验实验内容基于jupyter针对hive集群进行数据分析查询结果便于分析、处理、存储、下载实验材料 hadoop集群（hive依赖）（镜像） hive集群（镜像） anaconda2（linux版本） ...

PySpark 连接Hive

05-14

8812

文章目录简介环境搭建与效果演示更细节的搭建方法搭建HDFS、Spark或hive的前提已经有了远程可访问的测试集群搭建hadoop2.7.2修改hadoop配置格...

python / jupyter notebook 连接hive数据库sql

Caiqiudan的博客

11-25

3912

使用的是impala包。如何安装impala：https://blog.csdn.net/weixin_43713105/article/details/111921221 def read_sql(sql): ''' 读取hive的sql，二维列表参数： sql：sql语句返回： DataFrame ''' from impala.dbapi import connect import pandas as pd

pyspark 本地远程连接hive

小哇

05-18

2709

#配置本地spark的环境，必须放在最前面 import findspark findspark.init() print(findspark.find()) from pyspark.sql import SparkSession #新建sparksession sparksession = SparkSession.builder.master("local[*]").appName("hive_test_1") \ .config("hive.metastore.uris","thrif.

big-data-101:大数据101 Hadoop-Python-Jupyter Notebook-Sqoop-Hive

03-19

在大数据场景中，Python可以与Hadoop结合，通过PySpark等库进行分布式计算。 **Jupyter Notebook** 是一个交互式计算环境，支持多种编程语言，如Python、R和Julia。用户可以在笔记本中编写代码、展示结果、嵌入图像...

pyspark hive

09-20

jupyter 连接hive 需要配置什么

最新发布

weixin_41411069的博客

07-22

212

在python中使用pyspark读写Hive数据操作

09-16

主要介绍了在python中使用pyspark读写Hive数据操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

CDH 集群机器上部署 Jupyter notebook 使用 Pyspark 读取 Hive 数据库

weixin_30306905的博客

02-28

616

开始直接在 CDH Pyspark 的环境里面运行 Ipython 。 spark = SparkSession \ .builder \ .master('yarn') \ .appName('md_day_dump_users') \ .enableHiveSupport() \ .getOrCre...

Windows ，PySpark 访问远程 Hive 环境搭建

saviour的博客

06-04

1695

Windows ， PySpark 访问远程 Hive 环境搭建

PySpark 读写Hive数据源

alan_lin的专栏

02-27

2497

Hive 3.0以后，默认建立的表是ORC格式的（不用在hive-site.xml中开启行级事务支持）。但如果是在Hive交互命令行创建的表，在spark程序看来都是HiveFileFormat格式的表。因此，上面的代码中采用.format('Hive')。要回避这个问题，也可以采用以下代码，即从一个临时表向目标表追加数据的方法。在Spark中，使用SparkSession（从Spark 2.0开始）可以方便地读取和写入Hive表。# 定义DataFrame的结构（与stocks表的结构一致）

Pyspark连接数据库

lc_1123的博客

04-15

6353

API 数据库以Mysql为例 url = “jdbc:mysql://localhost:3306/test” table = “test” mode = properties = {"user":"fan","password":"111111"} 读 df = sqlContext.read.jdbc(url,table,mode,properties) 写 d

jupyter notebook远程服务器终端连接

u013517182的博客

09-11

487

如下图

hive python spark_Spark实战(六)spark SQL + hive(Python版)

weixin_42311375的博客

02-01

500

一、hive环境准备1、安装hive按照hive安装步骤安装好hiveCREATE USER 'spark'@'%' IDENTIFIED BY '123456';GRANT all privileges ON hive.* TO 'spark'@'%';12flush privileges;2、环境配置将配置好的hive-site.xml放入$SPARK-HOME/conf目录下,,下载mysq...

java/Python3连接数据库(Hive、Oracle)

qq_43012693的博客

07-31

865

一、前提准备 Python版本：3.6.4；需要下载的包：打开cmd在命令提示窗口中运行: pip install sasl pip install thrift pip install thrift-sasl pip install PyHive 这里大家在安装sasl的时候，如果报错的话，可以进入官网下载，我在这里下载的是 sasl‑0.2.1‑cp35‑cp35m‑win_amd64.whl,大家根据需要自行下载。下载完成后，即可打开Python界面： jupyter notebook 二、代