自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (11)
  • 收藏
  • 关注

原创 Hbase学习1:Hbase介绍

1.介绍Hbase是基于HDFS存储的2.Hbase的存储关系型数据库,有2个维度来确定某个具体的值,行 和 列Hbase有4个维度来确定某个具体的值,行键、列族、列名、时间戳,(其中时间戳是系统默认生成的所有只用前3个 就能确认唯一值),时间戳是因为HDFS生成文件后无法修改,Hbase只能通过时间戳方式来覆盖旧数据。系统默认会取最新时间戳。Hbase中某个具体的数值,叫单元格, Hbase的读写都是以单元格进行的,读写不是以数据行进行。3.Hbase分

2021-06-29 10:31:49 624

转载 Scala中使用fastJson 解析json字符串

Scala中使用fastJson 解析json字符串添加依赖 2.解析json字符 2.1可以通过JSON中的parseObject方法,把json字符转转换为一个JSONObject对象 2.2然后可调用JSONObject中的方法,根据key获取值 2.3对于JSON中的套JSON字符串的可以使用 2.4如果想要遍历JSONArray中的所有数据,想不使用getJSONObject方法,但是想要这里面的遍历的所有的JSONObject可以使用 3.实例添加依赖

2021-06-29 09:42:21 1077

原创 spark学习7.1:对RDD进行排序取前几

原始数据:两个文件根据第三列,进行倒叙排序,取最大前5个代码:import org.apache.spark.{SparkConf, SparkContext}object Top { def main(args: Array[String]): Unit = { //creat conf val conf = new SparkConf().setAppName("TopApplicationTest").setMaster("local")...

2021-06-25 17:20:17 2807

转载 Spark性能调优之Shuffle调优

Spark性能调优之Shuffle调优 •Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存。 •shuffle过程中常出现的问题常见问题一:reduce oom? 问题原因: reduce task 去map端获取数据,reduce一边拉取数据一边聚合,reduce端有一块聚合内存(executor memory * 0.2),也就是这块内存不够 ...

2021-06-16 11:44:10 518

转载 spark之shuffle原理及性能优化

ShuffleManager里有四个接口,register,reader,writer和stop。核心接口则是reader和writer,当前版本reader接口只有1个实现,writer接口有3个实现,每种实现分别对应不同的场景。writer 3种:1.BypassMergeSortShuffleWriter ,使用场景shuffle中没有map端的聚合操作 输出的分区数小于spark.shuffle.sort.bypassMergeThreshold,默认是200sh..

2021-06-16 11:23:04 1618

转载 spark中哪些算子会导致shuffle

spark中会导致shuffle操作的有以下几种算子、1、repartition类的操作:比如repartition、repartitionAndSortWithinPartitions、coalesce等2、byKey类的操作:比如reduceByKey、groupByKey、sortByKey等3、join类的操作:比如join、cogroup等重分区: 一般会shuffle,因为需要在整个集群中,对之前所有的分区的数据进行随机,均匀的打乱,然后把数据放入下游新的指定数量的分区内byKey类

2021-06-15 18:47:11 4939

转载 spark中shuffle运行原理

ShuffleManager里有四个接口,register,reader,writer和stop。核心接口则是reader和writer,当前版本reader接口只有1个实现,writer接口有3个实现,每种实现分别对应不同的场景。writer 3种:1.BypassMergeSortShuffleWriter ,使用场景shuffle中没有map端的聚合操作 输出的分区数小于spark.shuffle.sort.bypassMergeThreshold,默认是200sh..

2021-06-15 18:18:50 294

转载 spark中repartition和coalesce的区别

目录:一.区别二.使用三.总结一.区别repartition(numPartitions:Int):RDD[T]coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区)二.使用1)N < M。一般情况下N个分区有数据分布不均匀的状况,利用HashPa

2021-06-15 14:59:02 622

转载 hive解析json数据

hive处理json数据总体来说有两个方向的路走1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解析过得。这将需要使用第三方的SerDe。测试数据为新浪微博测试公开数据该数据采用json格式存储,id代表当前用户微博的id,ids代表当前微博用户关注其他微博用户的id列表,total_..

2021-06-15 13:58:27 6233

转载 hive中的EXPLODE和LATERAL VIEW

行转列操作0.函数说明EXPLODE(col):将 hive 一列中复杂的 array 或者 map 结构拆分成多行。LATERAL VIEW用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias解释:用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view 使用案例:源数据结构如下:movie category《疑犯追踪》

2021-06-15 13:52:05 260

转载 hive中添加UDF

Hive中有三种UDF:1、用户定义函数(user-defined function)UDF; 2、 用户定义聚集函数(user-defined aggregate function , UDAF );3、用户定义表生成函数(user-defined table-generating function, UDTF )。============================================================================...

2021-06-14 13:08:22 3316

转载 hive中distribute by、sort by、cluster by

1.背景 hive中有一个store表,字段分别是"商店所属人标识"(merid),“商户余额(money)”,“商店名称(name)”。求每个法人下属的商店的余额按照降序排序。 //merid,money,name B 10 store_B_4 A 12 store_A_1 A 14 store_A_2 B 15 store_B_1 B 19 store_B_2 B 30 store_B_3 2.distribute...

2021-06-12 22:05:45 240

转载 hive的分捅表

参考文章:hive分桶管理https://blog.csdn.net/freefish_yzx/article/details/77150714hive的分区和分桶https://blog.csdn.net/wl1411956542/article/details/52931499Hive中有数据分区的方案,也有数据分桶的方案,今天我们就来探讨下数据分桶 以及数据分桶使用的场景。该篇文章主要分为一下几个部分:1.数据分桶的适用场景2.数据分桶的原理...

2021-06-11 11:34:15 365 2

转载 hive中如何取到每个顾客最新交易

hive -e "use db; select t.advertId,t.exposureNum from ( select advertId, exposureNum, ROW_NUMBER() OVER(PARTITION BY advertId ORDER BY addTime desc) AS rn FROM tb_advert_flow_money where ftype = 2) t where t..

2021-06-11 11:17:37 371 2

转载 大数据面试题

大数据面试题https://www.yuque.com/zhongguohaopangzi/igi4hb/kws4zv京东1、列举几种数据倾斜的情况,并解释为什么会倾斜,以及如何解决?Join的时候发生数据倾斜: join的键对应的记录条数超过这个值则会进行分拆,值根据具体数据量设置set hive.skewjoin.key=100000; set hive.optimize.skewjoin=false广而告之1、近期做得什么项目,你负责什么模块,什...

2021-06-10 16:45:45 1873

原创 idea打包spark程序上传集群运行

IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的spark搭建后是否真正可以使用了1.简单编写个spark程序import org.apache.spark.{SparkConf, SparkContext}import com.alibaba.fastjson.JSONobject JsonTest { def main(args: Array[String

2021-06-10 13:22:09 1576

转载 idea中编写spark程序并打包到集群执行

本篇主要介绍了如何使用IDEA在本地打包Spark应用程序(以K-Means为例),并提交到集群执行。1、 安装JDK与Scala SDKJDK和Scala SDK的安装在这里不再赘述,需要注意的是:要设置好环境变量,这样新建项目时就能自动检测到对应的版本,同时版本最好不要太高,以避免版本不兼容的问题,本篇采用的是JDK 8.0与Scala 2.10.6。JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/Scala下载

2021-06-10 10:20:38 2631

原创 spark程序Scala脚本使用fastJson解析JSON格式数据

源数据样式{"name":"Michael","sex":1}{"name":"Andy", "age":30,"sex":2}{"name":"Justin", "age":19}解析后为map键值对代码如下:1. pom.xml 引入依赖:/*for json*/<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson&...

2021-06-09 19:18:42 898

原创 解决org.apache.hadoop.ipc.RenoteException(java.io.IOException)

部署hadoop集群以后,集群显示启动成功。但是 在启动spark-shell时候报错,org.apache.hadoop.ipc.RenoteException(java.io.IOException) file:************************************************can only write使用 hdfs dfsadmin -report 命令检查 hdfs 存储,发现是 hdfs 存储问题, dfs启动后 所有储存节点 大小都是...

2021-06-03 10:28:33 1646 4

原创 hadoop启动报错:Attempting to operate on hdfs namenode as root

写在最前注意:1、master,slave都需要修改start-dfs.sh,stop-dfs.sh,start-yarn.sh,stop-yarn.sh四个文件2、如果你的Hadoop是另外启用其它用户来启动,记得将root改为对应用户HDFS格式化后启动dfs出现以下错误:[root@master sbin]# ./start-dfs.shStarting namenodes on [master]ERROR: Attempting to operate on hdfs namenod

2021-06-02 13:16:47 18211 7

转载 linux重启网络报错Unit network-manager.service not found.

问题:使用systemctl restart network 或 service network restart 命令重启网卡失败,如下所示。[root@localhost ~]# service network-manager restart Failed to restart network-manager.service: Unit network-manager.service not found. [root@localhost ~]# [root@localh..

2021-06-01 10:02:37 59139 13

idea中新建springBoot的自定义目录

idea中新建springBoot的自定义目录

2024-04-16

YOLO V8 模型权重和main方法

1.YOLO V8 模型权重 2023-09-20版 2.程序识别的入口main方法

2023-09-20

chatGLM2 need‘s TDM-GCC

chatGLM2 need‘s TDM-GCC

2023-07-26

GLM2's need package,such as torch、streamlit

GLM2's need package,such as torch、streamlit

2023-07-25

datax-web 啊啊啊啊啊啊啊啊啊啊啊啊

datax-web 啊啊啊啊啊啊啊啊啊啊啊啊

2022-10-19

kafka_2.12-3.2.0kafkakakakakakakakakakakakaka

kafka_2.12-3.2.0kafkakakakakakakakakakakakaka

2022-08-05

FileZilla,啊啊啊啊啊啊

FileZilla,

2022-07-07

httpclient-4.3.1.jar httpcore-4.4.13.jar commons-logging-1.2.jar

httpclient-4.3.1.jar httpcore-4.4.13.jar commons-logging-1.2.jar

2022-04-30

VUE跨域chrome控件和vue开发组件

VUE跨域chrome控件和vue开发组件

2022-03-14

HiveTask执行SQL及合并小文件工具使用说明

HiveTask执行SQL及合并小文件工具使用说明

2022-02-21

everedit_win64_4488_portable.zip

everedit_win64_4488_portable.zip

2021-09-16

oracle-driver.zip

驱动为 ojdbc7

2021-08-10

scala-2.12.13.tgz

Scala2.12.13.tar linux安装包

2021-04-02

windows系统hadoop插件-winutilsmaster.zip

spark2.6-3.0的winutils

2021-02-21

data View H5 balabalabal

数据可视化,PRD开发工具帮助文档

2018-10-23

Pentaho Report Designer

BI学习,PRD,pentaho,报表,学习资料

2017-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除