2021年06月_hzp666

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hbase学习1：Hbase介绍

1.介绍Hbase是基于HDFS存储的2.Hbase的存储关系型数据库，有2个维度来确定某个具体的值，行和列Hbase有4个维度来确定某个具体的值,行键、列族、列名、时间戳，(其中时间戳是系统默认生成的所有只用前3个就能确认唯一值)，时间戳是因为HDFS生成文件后无法修改，Hbase只能通过时间戳方式来覆盖旧数据。系统默认会取最新时间戳。Hbase中某个具体的数值，叫单元格， Hbase的读写都是以单元格进行的，读写不是以数据行进行。3.Hbase分

2021-06-29 10:31:49 624

转载 Scala中使用fastJson 解析json字符串

Scala中使用fastJson 解析json字符串添加依赖 2.解析json字符 2.1可以通过JSON中的parseObject方法，把json字符转转换为一个JSONObject对象 2.2然后可调用JSONObject中的方法，根据key获取值 2.3对于JSON中的套JSON字符串的可以使用 2.4如果想要遍历JSONArray中的所有数据，想不使用getJSONObject方法，但是想要这里面的遍历的所有的JSONObject可以使用 3.实例添加依赖

2021-06-29 09:42:21 1077

原创 spark学习7.1：对RDD进行排序取前几

原始数据：两个文件根据第三列，进行倒叙排序，取最大前5个代码：import org.apache.spark.{SparkConf, SparkContext}object Top { def main(args: Array[String]): Unit = { //creat conf val conf = new SparkConf().setAppName("TopApplicationTest").setMaster("local")...

2021-06-25 17:20:17 2807

转载 Spark性能调优之Shuffle调优

Spark性能调优之Shuffle调优 •Spark底层shuffle的传输方式是使用netty传输，netty在进行网络传输的过程会申请堆外内存（netty是零拷贝），所以使用了堆外内存。 •shuffle过程中常出现的问题常见问题一：reduce oom? 问题原因： reduce task 去map端获取数据，reduce一边拉取数据一边聚合，reduce端有一块聚合内存（executor memory * 0.2）,也就是这块内存不够 ...

2021-06-16 11:44:10 518

转载 spark之shuffle原理及性能优化

ShuffleManager里有四个接口，register，reader，writer和stop。核心接口则是reader和writer，当前版本reader接口只有1个实现，writer接口有3个实现，每种实现分别对应不同的场景。writer 3种：1.BypassMergeSortShuffleWriter ，使用场景shuffle中没有map端的聚合操作输出的分区数小于spark.shuffle.sort.bypassMergeThreshold，默认是200sh..

2021-06-16 11:23:04 1618

转载 spark中哪些算子会导致shuffle

spark中会导致shuffle操作的有以下几种算子、1、repartition类的操作：比如repartition、repartitionAndSortWithinPartitions、coalesce等2、byKey类的操作：比如reduceByKey、groupByKey、sortByKey等3、join类的操作：比如join、cogroup等重分区: 一般会shuffle，因为需要在整个集群中，对之前所有的分区的数据进行随机，均匀的打乱，然后把数据放入下游新的指定数量的分区内byKey类

2021-06-15 18:47:11 4939

转载 spark中shuffle运行原理

2021-06-15 18:18:50 294

转载 spark中repartition和coalesce的区别

目录：一.区别二.使用三.总结一.区别repartition(numPartitions:Int):RDD[T]coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的简易实现，（假设RDD有N个分区，需要重新划分成M个分区）二.使用1）N < M。一般情况下N个分区有数据分布不均匀的状况，利用HashPa

2021-06-15 14:59:02 622

转载 hive解析json数据

hive处理json数据总体来说有两个方向的路走1、将json以字符串的方式整个入Hive表，然后通过使用UDF函数解析已经导入到hive中的数据，比如使用LATERAL VIEW json_tuple的方法，获取所需要的列名。2、在导入之前将json拆成各个字段，导入Hive表的数据是已经解析过得。这将需要使用第三方的SerDe。测试数据为新浪微博测试公开数据该数据采用json格式存储，id代表当前用户微博的id，ids代表当前微博用户关注其他微博用户的id列表，total_..

2021-06-15 13:58:27 6233

转载 hive中的EXPLODE和LATERAL VIEW

行转列操作0．函数说明EXPLODE(col)：将 hive 一列中复杂的 array 或者 map 结构拆分成多行。LATERAL VIEW用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias解释：用于和 split, explode 等 UDTF 一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。lateral view 使用案例：源数据结构如下：movie category《疑犯追踪》

2021-06-15 13:52:05 260

转载 hive中添加UDF

Hive中有三种UDF:1、用户定义函数(user-defined function)UDF； 2、用户定义聚集函数（user-defined aggregate function ， UDAF ）；3、用户定义表生成函数（user-defined table-generating function， UDTF ）。============================================================================...

2021-06-14 13:08:22 3316

转载 hive中distribute by、sort by、cluster by

1.背景 hive中有一个store表，字段分别是"商店所属人标识"(merid)，“商户余额(money)”，“商店名称（name）”。求每个法人下属的商店的余额按照降序排序。 //merid,money,name B 10 store_B_4 A 12 store_A_1 A 14 store_A_2 B 15 store_B_1 B 19 store_B_2 B 30 store_B_3 2.distribute...

2021-06-12 22:05:45 240

转载 hive的分捅表

参考文章：hive分桶管理https://blog.csdn.net/freefish_yzx/article/details/77150714hive的分区和分桶https://blog.csdn.net/wl1411956542/article/details/52931499Hive中有数据分区的方案，也有数据分桶的方案，今天我们就来探讨下数据分桶以及数据分桶使用的场景。该篇文章主要分为一下几个部分：1.数据分桶的适用场景2.数据分桶的原理...

2021-06-11 11:34:15 365 2

转载 hive中如何取到每个顾客最新交易

hive -e "use db; select t.advertId,t.exposureNum from ( select advertId, exposureNum, ROW_NUMBER() OVER(PARTITION BY advertId ORDER BY addTime desc) AS rn FROM tb_advert_flow_money where ftype = 2) t where t..

2021-06-11 11:17:37 371 2

转载大数据面试题

大数据面试题https://www.yuque.com/zhongguohaopangzi/igi4hb/kws4zv京东1、列举几种数据倾斜的情况，并解释为什么会倾斜，以及如何解决？Join的时候发生数据倾斜： join的键对应的记录条数超过这个值则会进行分拆，值根据具体数据量设置set hive.skewjoin.key=100000; set hive.optimize.skewjoin=false广而告之1、近期做得什么项目，你负责什么模块，什...

2021-06-10 16:45:45 1873

原创 idea打包spark程序上传集群运行

IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了，现在可以写一个简单的spark代码并且打成jar包上传至集群，来检验一下我们的spark搭建后是否真正可以使用了1.简单编写个spark程序import org.apache.spark.{SparkConf, SparkContext}import com.alibaba.fastjson.JSONobject JsonTest { def main(args: Array[String

2021-06-10 13:22:09 1576

转载 idea中编写spark程序并打包到集群执行

本篇主要介绍了如何使用IDEA在本地打包Spark应用程序（以K-Means为例），并提交到集群执行。1、安装JDK与Scala SDKJDK和Scala SDK的安装在这里不再赘述，需要注意的是：要设置好环境变量，这样新建项目时就能自动检测到对应的版本，同时版本最好不要太高，以避免版本不兼容的问题，本篇采用的是JDK 8.0与Scala 2.10.6。JDK下载地址：http://www.oracle.com/technetwork/java/javase/downloads/Scala下载

2021-06-10 10:20:38 2631

原创 spark程序Scala脚本使用fastJson解析JSON格式数据

源数据样式{"name":"Michael","sex":1}{"name":"Andy", "age":30,"sex":2}{"name":"Justin", "age":19}解析后为map键值对代码如下：1. pom.xml 引入依赖：/*for json*/<dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson&...

2021-06-09 19:18:42 898

原创解决org.apache.hadoop.ipc.RenoteException(java.io.IOException)

部署hadoop集群以后，集群显示启动成功。但是在启动spark-shell时候报错，org.apache.hadoop.ipc.RenoteException(java.io.IOException) file:************************************************can only write使用 hdfs dfsadmin -report 命令检查 hdfs 存储，发现是 hdfs 存储问题， dfs启动后所有储存节点大小都是...

2021-06-03 10:28:33 1646 4

原创 hadoop启动报错：Attempting to operate on hdfs namenode as root

写在最前注意：1、master，slave都需要修改start-dfs.sh，stop-dfs.sh，start-yarn.sh，stop-yarn.sh四个文件2、如果你的Hadoop是另外启用其它用户来启动，记得将root改为对应用户HDFS格式化后启动dfs出现以下错误：[root@master sbin]# ./start-dfs.shStarting namenodes on [master]ERROR: Attempting to operate on hdfs namenod

2021-06-02 13:16:47 18211 7

转载 linux重启网络报错Unit network-manager.service not found.

问题：使用systemctl restart network 或 service network restart 命令重启网卡失败，如下所示。[root@localhost ~]# service network-manager restart Failed to restart network-manager.service: Unit network-manager.service not found. [root@localhost ~]# [root@localh..

2021-06-01 10:02:37 59139 13