自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Spark-SQL连接Hive的五种方法

若使用Spark内嵌的Hive,直接使用即可,什么都不需要做(在实际生产活动中,很少会使用这一模式)将hive-site.xml 文件拷贝到项目的 resources 目录中。此处的 node01 改为自己的 hadoop 用户名称。以上就是Spark-SQL连接Hive的五种方法。4.启动Thrift Server。(以上步骤同方法二)

2022-12-11 23:35:09 2194 1

原创 Spark-SQL连接JDBC的方式及代码实现

SparkSQL 提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL 默认读取和保存的文件格式为parquet。

2022-12-11 22:31:55 551 1

原创 Hive的函数

(1)在idea中创建Maven项目,并在pom.xml中导入依赖(2)自定义一个java类继承UDF,重载 evaluate 方法。}}(3)将Java类打成jar包上传到服务器(4)添加jar包到hive中(5)创建临时函数与开发好的 class 关联起来(6)在hive中使用写好自定义函数(注:这种方式创建的临时函数只在一次hive会话中有效,重启会话后就无效,若想永久生效用以下方法)(7)删除函数。

2022-10-21 19:38:54 895

原创 Hdfs完全分布式集群搭建与配置及常见问题总结

分布式文件系统的产生是解决传统文件系统容量和吞吐量的限制的问题多用户多应用的并行读写的思想 分布式文件系统是基于Master/Slave规式,通常一个分布式文件系统提供多个用户访问的服务器 分布式文件系统管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连 分布式文件系统一般都会基于操作系统的本地文件系统 分布式文件系统一般都会提供备份和容错的功能 扩充存储空间的成本低廉 为分布式计算提供基础

2022-09-16 15:15:23 1117

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除