spark学习笔记1

最新推荐文章于 2022-07-31 17:36:50 发布

我能想到的

最新推荐文章于 2022-07-31 17:36:50 发布

阅读量217

点赞数

分类专栏：大数据文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangping623/article/details/88424760

版权

大数据专栏收录该内容

13 篇文章 0 订阅

订阅专栏

一、开发sql程序

(1) new sql context)

(2) val data = sql context.read ("joon").load (jsonfilepath) //返回的是张表

(3）data.show() //可以直接使用show查看数据

(4) 上传至服务器

(5) 提交作业

spark.submit --class --master -jars filepath

4. hive Context 的使用

5. spark session 的使用

(1)新版本不再使用 context，而使用 spark session

6. spark-shell/ spark-sql 使用

1) hive.site拷贝到spark的conf目录下

2) 启动的时候需要指定mysql 驱动 jars

7. thrift-server/beeline的使用

二、 Data Frame 和 Dataset

1. DataFrame是分布式的数据集，按照列进行存储，它包含schema信息，类似数据库表，RDD也是分布式的数据记录，只不过它没有schema信息，类似于文本文件中的一行数据。

2. DataFrame 是以列组织的数据集（类似于数据库中的表），也就是DataSet的集合

3. RDD和DataFrame的对比

4、常用的 DataFrame常见的API

(1) select.

(2) filter

(3) show

5. DataFrame 与 RDD 相互操作有如下两种方式

第一种方式是反射的方式

1) 定义 case class

2) 将 RDD 转换为 DatàFrame (需要导入隐式转换）

第二种方式（通过编程方式）

(1)将 RDD 转换为 Row

(2）定义一个 structType

(3)通过 spark 的 createDataFrame()对Row和structType进行关联

6. DataSet类似于DataFrame，但是有更加严格的语法检查和类型检查。

三、外部数据源

(1)每个应用程序都加载数据(以前学习的load）

(2)对加载的数据作处理完之后要将结果存入到目的地（这个目的地可以是 Mpql/HBases/json

(3)主要架构如下

(4) 本章操作其他数据源的方式和上一章介绍的操作json数据源的方式类似,比如text、csv等格式文件

(5) 操作 Hive表

spark table(tableName)

(6) 操作 mysql 数据库

mysql数据源可以参考官方网站的示例进行操作

四、列式数据库和行式数据库的存储原理

从存储原理的角度来看，行式数据库要查找某一类的数据比如b2必须从头开始遍历，所以时间需要5个单位，而对于列式数据库，如果要读取b2，只需要指定列族b，然后再指定列的名称b2，访问时间只要3个单位。

特别是查询一列数据，行式数据库需要访问所有的数据，列式数据库只需要查询特定的列，性能大规模提升。

我能想到的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark学习笔记1

一、开发sql程序(1) new sql context)(2) val data = sql context.read ("joon").load (jsonfilepath) //返回的是张表(3）data.show() //可以直接使用show查看数据(4) 上传至服务器(5) 提交作业spark.submit --class --master -jars filep...
复制链接

扫一扫

专栏目录

我能想到的 CSDN认证博客专家 CSDN认证企业博客

码龄10年

60: 原创

7万+: 周排名

46万+: 总排名

17万+: 访问

: 等级

1940: 积分

44: 粉丝

87: 获赞

18: 评论

309: 收藏

私信

关注

热门文章

分类专栏

最新评论

VS2017创建静态库lib和使用静态库
lykbran: 谢谢，已解决
VS2017创建静态库lib和使用静态库
Duranbin: 右键项目-属性-配置属性-常规-生成静态库lib文件，如果已经是选择静态库了，右键项目生成/重新生成然后Debug目录就会有lib文件了
VS2017创建静态库lib和使用静态库
lykbran: 1>main.obj : error LNK2019: 无法解析的外部符号 "public: __cdecl SimpleIn::SimpleIn(void)" (??0SimpleIn@@QEAA@XZ)，函数 main 中引用了该符号博主能看一下吗，这问题怎么解
深入理解虚拟内存机制
qq_24836821: 谁给详解一下，为什么运行内存小电脑就卡
转载：网络编程之bind函数的作用
山海意明: 感谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。