- 博客(21)
- 资源 (11)
- 收藏
- 关注
原创 Hbase学习1:Hbase介绍
1.介绍Hbase是基于HDFS存储的2.Hbase的存储关系型数据库,有2个维度来确定某个具体的值,行 和 列Hbase有4个维度来确定某个具体的值,行键、列族、列名、时间戳,(其中时间戳是系统默认生成的所有只用前3个 就能确认唯一值),时间戳是因为HDFS生成文件后无法修改,Hbase只能通过时间戳方式来覆盖旧数据。系统默认会取最新时间戳。Hbase中某个具体的数值,叫单元格, Hbase的读写都是以单元格进行的,读写不是以数据行进行。3.Hbase分
2021-06-29 10:31:49 624
转载 Scala中使用fastJson 解析json字符串
Scala中使用fastJson 解析json字符串添加依赖 2.解析json字符 2.1可以通过JSON中的parseObject方法,把json字符转转换为一个JSONObject对象 2.2然后可调用JSONObject中的方法,根据key获取值 2.3对于JSON中的套JSON字符串的可以使用 2.4如果想要遍历JSONArray中的所有数据,想不使用getJSONObject方法,但是想要这里面的遍历的所有的JSONObject可以使用 3.实例添加依赖
2021-06-29 09:42:21 1077
原创 spark学习7.1:对RDD进行排序取前几
原始数据:两个文件根据第三列,进行倒叙排序,取最大前5个代码:import org.apache.spark.{SparkConf, SparkContext}object Top { def main(args: Array[String]): Unit = { //creat conf val conf = new SparkConf().setAppName("TopApplicationTest").setMaster("local")...
2021-06-25 17:20:17 2807
转载 Spark性能调优之Shuffle调优
Spark性能调优之Shuffle调优 •Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存。 •shuffle过程中常出现的问题常见问题一:reduce oom? 问题原因: reduce task 去map端获取数据,reduce一边拉取数据一边聚合,reduce端有一块聚合内存(executor memory * 0.2),也就是这块内存不够 ...
2021-06-16 11:44:10 518
转载 spark之shuffle原理及性能优化
ShuffleManager里有四个接口,register,reader,writer和stop。核心接口则是reader和writer,当前版本reader接口只有1个实现,writer接口有3个实现,每种实现分别对应不同的场景。writer 3种:1.BypassMergeSortShuffleWriter ,使用场景shuffle中没有map端的聚合操作 输出的分区数小于spark.shuffle.sort.bypassMergeThreshold,默认是200sh..
2021-06-16 11:23:04 1618
转载 spark中哪些算子会导致shuffle
spark中会导致shuffle操作的有以下几种算子、1、repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等2、byKey类的操作:比如reduceByKey、groupByKey、sortByKey等3、join类的操作:比如join、cogroup等重分区: 一般会shuffle,因为需要在整个集群中,对之前所有的分区的数据进行随机,均匀的打乱,然后把数据放入下游新的指定数量的分区内byKey类
2021-06-15 18:47:11 4939
转载 spark中shuffle运行原理
ShuffleManager里有四个接口,register,reader,writer和stop。核心接口则是reader和writer,当前版本reader接口只有1个实现,writer接口有3个实现,每种实现分别对应不同的场景。writer 3种:1.BypassMergeSortShuffleWriter ,使用场景shuffle中没有map端的聚合操作 输出的分区数小于spark.shuffle.sort.bypassMergeThreshold,默认是200sh..
2021-06-15 18:18:50 294
转载 spark中repartition和coalesce的区别
目录:一.区别二.使用三.总结一.区别repartition(numPartitions:Int):RDD[T]coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区)二.使用1)N < M。一般情况下N个分区有数据分布不均匀的状况,利用HashPa
2021-06-15 14:59:02 622
转载 hive解析json数据
hive处理json数据总体来说有两个方向的路走1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解析过得。这将需要使用第三方的SerDe。测试数据为新浪微博测试公开数据该数据采用json格式存储,id代表当前用户微博的id,ids代表当前微博用户关注其他微博用户的id列表,total_..
2021-06-15 13:58:27 6233
转载 hive中的EXPLODE和LATERAL VIEW
行转列操作0.函数说明EXPLODE(col):将 hive 一列中复杂的 array 或者 map 结构拆分成多行。LATERAL VIEW用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias解释:用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view 使用案例:源数据结构如下:movie category《疑犯追踪》
2021-06-15 13:52:05 260
转载 hive中添加UDF
Hive中有三种UDF:1、用户定义函数(user-defined function)UDF; 2、 用户定义聚集函数(user-defined aggregate function , UDAF );3、用户定义表生成函数(user-defined table-generating function, UDTF )。============================================================================...
2021-06-14 13:08:22 3316
转载 hive中distribute by、sort by、cluster by
1.背景 hive中有一个store表,字段分别是"商店所属人标识"(merid),“商户余额(money)”,“商店名称(name)”。求每个法人下属的商店的余额按照降序排序。 //merid,money,name B 10 store_B_4 A 12 store_A_1 A 14 store_A_2 B 15 store_B_1 B 19 store_B_2 B 30 store_B_3 2.distribute...
2021-06-12 22:05:45 240
转载 hive的分捅表
参考文章:hive分桶管理https://blog.csdn.net/freefish_yzx/article/details/77150714hive的分区和分桶https://blog.csdn.net/wl1411956542/article/details/52931499Hive中有数据分区的方案,也有数据分桶的方案,今天我们就来探讨下数据分桶 以及数据分桶使用的场景。该篇文章主要分为一下几个部分:1.数据分桶的适用场景2.数据分桶的原理...
2021-06-11 11:34:15 365 2
转载 hive中如何取到每个顾客最新交易
hive -e "use db; select t.advertId,t.exposureNum from ( select advertId, exposureNum, ROW_NUMBER() OVER(PARTITION BY advertId ORDER BY addTime desc) AS rn FROM tb_advert_flow_money where ftype = 2) t where t..
2021-06-11 11:17:37 371 2
转载 大数据面试题
大数据面试题https://www.yuque.com/zhongguohaopangzi/igi4hb/kws4zv京东1、列举几种数据倾斜的情况,并解释为什么会倾斜,以及如何解决?Join的时候发生数据倾斜: join的键对应的记录条数超过这个值则会进行分拆,值根据具体数据量设置set hive.skewjoin.key=100000; set hive.optimize.skewjoin=false广而告之1、近期做得什么项目,你负责什么模块,什...
2021-06-10 16:45:45 1873
原创 idea打包spark程序上传集群运行
IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的spark搭建后是否真正可以使用了1.简单编写个spark程序import org.apache.spark.{SparkConf, SparkContext}import com.alibaba.fastjson.JSONobject JsonTest { def main(args: Array[String
2021-06-10 13:22:09 1576
转载 idea中编写spark程序并打包到集群执行
本篇主要介绍了如何使用IDEA在本地打包Spark应用程序(以K-Means为例),并提交到集群执行。1、 安装JDK与Scala SDKJDK和Scala SDK的安装在这里不再赘述,需要注意的是:要设置好环境变量,这样新建项目时就能自动检测到对应的版本,同时版本最好不要太高,以避免版本不兼容的问题,本篇采用的是JDK 8.0与Scala 2.10.6。JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/Scala下载
2021-06-10 10:20:38 2631
原创 spark程序Scala脚本使用fastJson解析JSON格式数据
源数据样式{"name":"Michael","sex":1}{"name":"Andy", "age":30,"sex":2}{"name":"Justin", "age":19}解析后为map键值对代码如下:1. pom.xml 引入依赖:/*for json*/<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson&...
2021-06-09 19:18:42 898
原创 解决org.apache.hadoop.ipc.RenoteException(java.io.IOException)
部署hadoop集群以后,集群显示启动成功。但是 在启动spark-shell时候报错,org.apache.hadoop.ipc.RenoteException(java.io.IOException) file:************************************************can only write使用 hdfs dfsadmin -report 命令检查 hdfs 存储,发现是 hdfs 存储问题, dfs启动后 所有储存节点 大小都是...
2021-06-03 10:28:33 1646 4
原创 hadoop启动报错:Attempting to operate on hdfs namenode as root
写在最前注意:1、master,slave都需要修改start-dfs.sh,stop-dfs.sh,start-yarn.sh,stop-yarn.sh四个文件2、如果你的Hadoop是另外启用其它用户来启动,记得将root改为对应用户HDFS格式化后启动dfs出现以下错误:[root@master sbin]# ./start-dfs.shStarting namenodes on [master]ERROR: Attempting to operate on hdfs namenod
2021-06-02 13:16:47 18211 7
转载 linux重启网络报错Unit network-manager.service not found.
问题:使用systemctl restart network 或 service network restart 命令重启网卡失败,如下所示。[root@localhost ~]# service network-manager restart Failed to restart network-manager.service: Unit network-manager.service not found. [root@localhost ~]# [root@localh..
2021-06-01 10:02:37 59139 13
kafka_2.12-3.2.0kafkakakakakakakakakakakakaka
2022-08-05
httpclient-4.3.1.jar httpcore-4.4.13.jar commons-logging-1.2.jar
2022-04-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人