spark主要核心笔记

spark主要用来做数据的分析,必须要把分析的数据存放到rdd-----------弹性分布式数据集
弹性:可以随着work的变化而变化
分布式:同一个数据集在多台服务器中存放,每一台服务器只存放整个rdd的一部分,一般都是平均分配
rdd:就是一个集合/数组,这样来理解:看成一个数据库
数据集:数据的集合,很多很多的数据
rdd中有许多的分区,相当于数据库的表----数据存放在rdd的分区中
rdd中的数据是只读的,目前来说任何情况下都不能修改
rdd没有分区是无法存放数据的
一.创建rdd的方式“:
1.parallize,makerdd:参数是一个序列 parallize和makerdd的作用基本一致
2.通过读取一个文件创建rdd典型的textfile
3.通过其他的rdd来创建一个新的rdd rdd的传递性
二.rdd的操作,transformation和action统称为算子,算子说白了就是方法
transformation:
1.不会立即执行,直到遇到action,只是保存了要进行的操作,
2.都会创建一个新的rdd
action:
1.会立即执行,这样的话就会迫使前面的所有的transformation执行,前面的所有的transformation执行完后action才会执行
2.一般action没有返回值,或者返回一个简单类型数据,肯定不会是rdd的
常用的算子:
transformation:

map:遍历rdd的每一个数据,返回一个mappattionsrdd,for循环类似
filter:过滤出来符合某些条件的数据最后一行必须是bool的类型,这是一个判断函数
flatmap:先进行map再进行flatten
mappartitions:遍历每一个分区
action:
foreachpartition:遍历每一个分区,没有返回值
union:得到两个rdd的并集
itsterdection:得到两个rdd的交集
distinct:去除重复的数据,如果rdd中存放的数据是个对象的话,要求创建该对象的类,必续实现可序列化的接口,并且重写hashcode和equals方法
groupby:安装某个数据进行分组返回值是一个kv类型的元组,k就是分组的数据。,value是一个迭代器
groupbykey:(注意只有算子中有key这个单词要求rdd中存放的数据格式必须是键值对)
softby:按照某个数据进行排序,第一个参数是要进行排序的数据,地二个参数是升序还是降序
reducebykey:对相同key的value进行合并,先将第一个数据拉取下来,然后拉取第二个将两个值进行聚合,赋值给第一个值,然后继续拉取
agregateByKey:比较低级的算子,原理:先在每一个分区中对相同key的value值,进行聚合,然后再对整个rdd中相同key的value值进行聚合
join:内连接原理和数据库相同
lefttouterjoin:左连接
righterouterjion:右链接

action:
reduce聚合:多进一出
collect:收集,(消耗巨大的内存),收集到driver(驱动端)
take:从rdd中取出前n个值
takeOrdered:排序再取n个值
savetestfile:保存Rdd数据
countbykey:对key进行计数
foreach:遍历rdd中的每一个元素,没有返回值没有任何返回数据

需要把rdd中存放的数据保存到数据库中?
遍历的方式:
map,mappartition—pass
foreach:遍历rdd中的每一个元素
foreachpartition:以分区为单位进行遍历效率最好
一般含有key的方法都是对元组进行操作

看mysql的启动状态
service mysql status/start/stop

hive 函数/export/jar

create temporary function fext as “FunctionExt”;

hashtable:
hashmap:

不用maven打jar包
在右上角的文件夹图标点击
type类型选择是jar
进入artifacts中点击加号选中jar from。。。。。。。。。。。
copy。。。。。。选中
在窗口找到bulid
选bulid artifacts----选择bulid

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值