- 博客(4)
- 收藏
- 关注
原创 Spark-SQL连接Hive的五种方法
若使用Spark内嵌的Hive,直接使用即可,什么都不需要做(在实际生产活动中,很少会使用这一模式)将hive-site.xml 文件拷贝到项目的 resources 目录中。此处的 node01 改为自己的 hadoop 用户名称。以上就是Spark-SQL连接Hive的五种方法。4.启动Thrift Server。(以上步骤同方法二)
2022-12-11 23:35:09 2194 1
原创 Spark-SQL连接JDBC的方式及代码实现
SparkSQL 提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL 默认读取和保存的文件格式为parquet。
2022-12-11 22:31:55 551 1
原创 Hive的函数
(1)在idea中创建Maven项目,并在pom.xml中导入依赖(2)自定义一个java类继承UDF,重载 evaluate 方法。}}(3)将Java类打成jar包上传到服务器(4)添加jar包到hive中(5)创建临时函数与开发好的 class 关联起来(6)在hive中使用写好自定义函数(注:这种方式创建的临时函数只在一次hive会话中有效,重启会话后就无效,若想永久生效用以下方法)(7)删除函数。
2022-10-21 19:38:54 895
原创 Hdfs完全分布式集群搭建与配置及常见问题总结
分布式文件系统的产生是解决传统文件系统容量和吞吐量的限制的问题多用户多应用的并行读写的思想 分布式文件系统是基于Master/Slave规式,通常一个分布式文件系统提供多个用户访问的服务器 分布式文件系统管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连 分布式文件系统一般都会基于操作系统的本地文件系统 分布式文件系统一般都会提供备份和容错的功能 扩充存储空间的成本低廉 为分布式计算提供基础
2022-09-16 15:15:23 1117
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人