自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Spark-SQL连接Hive

Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL 编译时可以包含 Hive 支持,也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)、Hive 查询语言(HQL)等。需要强调的一点是,如果要在 Spark SQL 中包含Hive 的库,并不需要事先安装 Hive。一般来说,最好还是在编译 Spark SQL 时引入 Hive支持,这样就可以使用这些特性了。

2022-12-08 21:21:56 994 1

原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

Spark Dataset:Apache Spark中的Dataset是DataFrame API的扩展,它提供了类型安全(type-safe),面向对象(object-oriented)的编程接口。5、DataFrame与Dataset均支持sparksql的操作,比如select,groupby之类,还能注册临时表/视窗,进行sql语句操作。1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利。2、三者都有惰性机制,在进行创建、转换。

2022-12-08 17:26:32 440

原创 Spark-SQL连接JDBC的方式及代码

Spark SQL支持数据源使用JDBC从其他数据库读取数据。与使用JdbcRDD相比,应优先使用此功能。这是因为结果以DataFrame的形式返回,并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。JDBC数据源也更易于从Java或Python使用,因为它不需要用户提供ClassTag。JDBC和 Kubernetes中的 Java数据源一样,都使用 Java语言编写。不过 JDBC比 JDBC更小,因为它使用标准的 JSON文件格式。

2022-12-08 17:19:06 946

原创 HDFS完全分布式集群搭建与配置

(1)防火墙设置:为了防止发生一些奇奇怪怪的错误,请务必关闭所有节点的防火墙,他可能会导致浏览器无法获取集群信息和文件上传集群失败环境搭建,还有通过.start-dfs.sh命令启动集群失败的很大一个原因就是服务器防火墙未关闭的原因。(2)hosts文件配置和主机名:因为这是完全分布式的集群,所以配置hosts文件至关重要,不然你的私钥配置和以后节点的格式化都会出错,他将会提示你无法解析主机名.(3)将配置好的HDFS拷贝到其他节点时注意路径问题。

2022-11-09 20:20:50 4178 1

原创 hive对库的操作

现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、功能太强大了,做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法,而且,和HBase、Spark都能整合使用。如果你是做大数据分析平台和数据仓库相关的,就目前来说,我建议,Hive是必须的。

2022-10-21 11:12:09 617

原创 CentOS7虚拟机节点搭建教程

在实际开发中我们经常会遇到很多预料之外的bug可能对操作系统有一定影响,从虚拟机作用来看可以帮助我们测试开发程序并避免重新安装某些软件,同时这是一个独立的环境保密性较高利于保护开发资料。

2022-10-21 10:00:09 1358

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除