自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Spark-SQL连接Hive 的五种方法

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致,因此我们部署好 Spark Thrift Server 后,可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。Spark Thrift Server 的目的也只是取代 HiveServer2,因此它依旧可以和 Hive Metastore进行交互,获取到 hive 的元数据。如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可。

2022-12-11 20:12:53 229 1

原创 Spark-SQL连接JDBC的方式及代码写法

"):在"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"格式下需要传入加载。"):指定保存的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。"):指定加载的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。"):在"csv"、"orc"、"parquet"和"textFile"格式下需要传入保存数据的路径。如果保存不同格式的数据,可以对不同的数据格式进行设定。

2022-12-11 20:08:32 910

原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

DataSet 是分布式数据集合。在之前学习MR的过程中对数据是没有进行抽象的,而在Spark中对数据进行了抽象,提供一些列处理方法也就是说RDD(弹性分布式数据集),Spark计算的基石,为用户屏蔽了底层对数据的复杂抽象和处理,为用户提供了一组方便的数据转换与求值方法。现在开发的过程中都是面向对象的思想,那么我们创建类的时候会对类封装一些属性和方法,那么创建出来的对象就具备着这些属性和方法,类也属于对数据的抽象,而Spark中的RDD就是对操作数据的一个抽象。同是的他们的执行效率和执行方式。

2022-12-11 19:45:56 373

原创 Hive整合Hbase

Hive-2.3.3Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现2、应用场景将ETL操作的数据存入HBase。

2022-11-04 19:07:06 596

原创 hive对数据库及表的操作

hive对数据库及表的操作

2022-10-21 10:03:00 1168

原创 Hive的函数

为了方便开发人员使用函数,Hive提供了大量的内置函数,包括数学函数,集合函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数,日期函数

2022-10-20 11:13:58 633

原创 Hive安装与配置及常见问题解决

hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称Hive SQL,使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。

2022-10-14 10:33:33 1030

原创 MapReduce课程设计 好友推荐功能

分析:第一个为直接好友,也就是说,Tom 和hello 和hadoop 和cat是直接好友关系,而他们之间是 间接好友关系,但是间接好友 关系不一定就不是直接 好友关系,而我们要找的就是间接好友的关系,//如果一直为1n那就是间接关系然后就累加几次。//combiner组件。//若路径存在则将其删除。//获取虚拟机配置信息。推荐者与被推荐者一定有一个或多个相同的好友,存在一个共同好友,值为1;* 直接好友关系值为0。* 间接好友关系值为1。全局去寻找好友列表中两两关系,统计两两关系出现次数。

2022-09-30 16:29:26 881

原创 如何搭建可正常使用的centOS7系统虚拟机节点

如何搭建可正常使用的centOS7系统虚拟机节点

2022-09-15 15:16:44 581 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除