自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Aricya的博客

原创 Spark-SQL连接Hive

Apache Hive 是 Hadoop 上的 SQL 引擎，Spark SQL 编译时可以包含 Hive 支持，也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)、Hive 查询语言（HQL）等。需要强调的一点是，如果要在 Spark SQL 中包含Hive 的库，并不需要事先安装 Hive。一般来说，最好还是在编译 Spark SQL 时引入 Hive支持，这样就可以使用这些特性了。

2022-12-08 21:21:56 1092 1

原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

Spark Dataset：Apache Spark中的Dataset是DataFrame API的扩展，它提供了类型安全(type-safe)，面向对象(object-oriented)的编程接口。5、DataFrame与Dataset均支持sparksql的操作，比如select，groupby之类，还能注册临时表/视窗，进行sql语句操作。1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利。2、三者都有惰性机制，在进行创建、转换。

2022-12-08 17:26:32 489

原创 Spark-SQL连接JDBC的方式及代码

Spark SQL支持数据源使用JDBC从其他数据库读取数据。与使用JdbcRDD相比，应优先使用此功能。这是因为结果以DataFrame的形式返回，并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。JDBC数据源也更易于从Java或Python使用，因为它不需要用户提供ClassTag。JDBC和 Kubernetes中的 Java数据源一样，都使用 Java语言编写。不过 JDBC比 JDBC更小，因为它使用标准的 JSON文件格式。

2022-12-08 17:19:06 1104

原创 HDFS完全分布式集群搭建与配置

(1)防火墙设置:为了防止发生一些奇奇怪怪的错误，请务必关闭所有节点的防火墙，他可能会导致浏览器无法获取集群信息和文件上传集群失败环境搭建，还有通过.start-dfs.sh命令启动集群失败的很大一个原因就是服务器防火墙未关闭的原因。(2)hosts文件配置和主机名:因为这是完全分布式的集群，所以配置hosts文件至关重要，不然你的私钥配置和以后节点的格式化都会出错，他将会提示你无法解析主机名.(3)将配置好的HDFS拷贝到其他节点时注意路径问题。

2022-11-09 20:20:50 5036 1

原创 hive对库的操作

现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当长，但是它太方便、功能太强大了，做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法，而且，和HBase、Spark都能整合使用。如果你是做大数据分析平台和数据仓库相关的，就目前来说，我建议，Hive是必须的。

2022-10-21 11:12:09 691

原创 CentOS7虚拟机节点搭建教程

在实际开发中我们经常会遇到很多预料之外的bug可能对操作系统有一定影响，从虚拟机作用来看可以帮助我们测试开发程序并避免重新安装某些软件，同时这是一个独立的环境保密性较高利于保护开发资料。

2022-10-21 10:00:09 1697

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄5年

6
原创

5
点赞

45
收藏

2
粉丝

关注

私信

热门文章

最新评论

Spark-SQL连接Hive
CSDN-Ada助手: 感谢分享！看到你的博客标题我很感兴趣，希望你能继续分享更多关于Spark-SQL连接Hive的实践经验和技巧。如果可以的话，我建议你可以写一篇关于如何使用Spark-SQL对Hive表数据进行实时分析和处理的博文，结合一些实际案例，让读者更好地理解和应用相关技术。期待你的下一篇精彩分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
HDFS完全分布式集群搭建与配置
qq_45830657: 怎么我报这个错了 ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation

提示

确定要删除当前文章？

取消删除