大数据
文章平均质量分 54
主要为大数据各种组件的探索研究
郝少
爱出者爱返,福往者福来。
展开
-
【Spark】dataFrame存储Hive ORC格式并显示为NULL
dataFrame存储Hive ORC格式并显示为NULL问题原创 2023-05-15 10:46:59 · 570 阅读 · 0 评论 -
【Spark】表记录分组去重
表记录分组去重,开窗函数原创 2023-05-05 10:42:20 · 256 阅读 · 0 评论 -
VMware15.5安装教程
VMware15.5安装教程原创 2022-12-07 14:52:37 · 1249 阅读 · 2 评论 -
【elasticsearch】elasticsearch7.x集群搭建
elasticsearch7.x集群搭建原创 2022-10-31 17:20:27 · 2622 阅读 · 0 评论 -
【Hive】内置函数—关系运算
hive关系运算内置函数大全原创 2022-10-23 14:10:24 · 202 阅读 · 0 评论 -
【Hive】内置函数—日期函数
【Hive】内置日期函数大全原创 2022-10-22 10:52:44 · 580 阅读 · 0 评论 -
【Hive】内置函数—字符串函数
hive字符串内置函数大全原创 2022-10-21 18:03:08 · 3926 阅读 · 0 评论 -
【Hive】内置函数—条件函数
hive条件函数使用总结原创 2022-10-21 10:17:55 · 888 阅读 · 0 评论 -
【Hive|Spark】spark写入hive表存储格式问题
The format of the existing table default.student is `HiveFileFormat`. It doesn't match the specified format `OrcFileFormat`.;原创 2022-10-14 17:46:17 · 2826 阅读 · 0 评论 -
【Spark】concat、concat_ws函数的使用
concat、concat_ws函数的使用原创 2022-09-23 09:53:30 · 4014 阅读 · 0 评论 -
【Spark】RDD、DataFram、DataSet的比较与使用
RDD、DataFram、DataSet的比较与使用原创 2022-09-20 15:36:12 · 1387 阅读 · 0 评论 -
【Spark】spark对mysql的操作
spark对mysql的写入、读取、更新操作技巧原创 2022-09-14 16:42:37 · 3210 阅读 · 0 评论 -
【Hive】建表时的存储格式
hive建表时的存储格式原创 2022-09-09 10:15:24 · 6058 阅读 · 3 评论 -
【Hive】insert into 与 insert overwrite的区别
insert into 和 insert overwrite区别原创 2022-09-06 14:54:56 · 3105 阅读 · 0 评论 -
【Hive】各种join连接用法
hive join连接的各种用法原创 2022-09-02 11:46:58 · 6968 阅读 · 1 评论 -
【IDEA】spark-scala快速返回数据类型的方法
spark-scala快速返回数据类型的方法原创 2022-08-24 14:09:47 · 740 阅读 · 0 评论 -
【Linux】分析目录占用大小
当linux没有可用空间时,或者分析哪一个目录占用空间大小情况可以使用如下办法:# 选择进去的目录,这里 /cd /# 显示每个目录空间大小du -sh *原创 2022-04-08 15:23:20 · 779 阅读 · 0 评论 -
【Dolphinscheduler】DS提交pyspark多文件项目到yarn集群
一、测试环境DS:1.3.4Ambari:2.6.3.0-235提交模式:client二、需求说明需要使用pyspark写一个算法模型项目,通过DS进行提交训练。此算法模型项目包含多个.py文件和配置文件、模型相关文件。具体结构如下图,其中配置文件为conf/env.yml,模型文件为modelfiles/bert/bert_vocab.txt、modelfiles/bert/config.json、pytorch_model.bin。输出文件夹为output。run.p...原创 2022-02-17 09:53:50 · 1045 阅读 · 0 评论 -
【Dolphinscheduler】DS提交pyspark,路径文件找不到问题
一、问题描述程序需要提供配置输出日志路径,错误配置为:root_dir: m_dslog_dir: m_ds/logs报错信息:FileNotFoundError: [Errno 2] No such file or directory: '/tmp/dolphinscheduler/exec/process/8/74/405/418/m_ds/logs/bert_for_multi_label-2022-02-09-17:15:14.log'二、解决办法原因:由于日志路径配原创 2022-02-17 09:40:23 · 1086 阅读 · 0 评论 -
【Dolphinscheduler】DS资源中心上传比较大的文件内存溢出
1、问题描述在DS中心上传比较大的文件时,页面加载100%,但是一直在loading,后台dolphinscheduler-api-server.log报内存溢出错误:java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3236) at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:118...原创 2022-01-21 14:19:46 · 1934 阅读 · 5 评论 -
【Dolphinscheduler】提交pyspark单文件到yarn集群
一、测试环境DS:1.3.4Ambari:2.6.3.0-235二、python测试代码,dspythontest.pyimport osimport pandas as pdfrom pyspark.sql import SparkSessionfrom argparse import ArgumentParserspark = SparkSession \ .builder \ .appName("ds python test") \ .enable原创 2022-01-18 16:29:08 · 3936 阅读 · 2 评论 -
【gitLab】安装及使用
1、gitLab安装包下载gitLab官网下载地址这里使用:gitlab-ce-10.4.1-ce.0.el7.x86_64.rpm2、将下载的rpm包放到linux指定目录3、进行rpm包安装rpm -ivh gitlab-ce-10.4.1-ce.0.el7.x86_64.rpm执行成功之后修改ip和端口号:vim /etc/gitlab/gitlab.rbexternal_url 'http://192.168.xx.xx:8099' 4、初始化gitlab数据原创 2021-12-31 16:35:58 · 1279 阅读 · 0 评论 -
【DolphinScheduler】租户和队列
一、租户租户对应的是 Linux 的用户,用于 worker 提交作业所使用的用户。如果 Linux 没有这个用户,worker 会在执行脚本的时候创建这个用户。租户编码:租户编码是 Linux 上的用户,唯一,不能重复。新建的租户会在 HDFS 上 $hdfsPath("/dolphinscheduler") 目录下创建租户目录,租户目录下为该租户上传的文件和 UDF 函数。租户名称:租户编码的别名注意:在选择租户时,要考虑选择的租户在程序的执行中是否有相应的读写权限,避免出错。原创 2021-11-01 17:08:54 · 4527 阅读 · 0 评论 -
【DolphinScheduler】手动提交spark到yarn cluster运行正常,DS提交yarn cluster报空指针等错误
问题描述:手动提交spark到yarn cluster运行正常,DS提交yarn cluster报空指针等错误:Exception in thread "main" org.apache.spark.SparkException: Application application_1633943332832_0171 finished with failed status at org.apache.spark.deploy.yarn.Client.run(Client.scala:1187)原创 2021-11-01 16:32:17 · 644 阅读 · 0 评论 -
【DolphinScheduler】提交spark任务scopt参数问题
在spark中如果使用的是scopt技术传递参数,则scopt参数在ds中的传递位置和格式如下:原创 2021-11-01 16:26:21 · 1433 阅读 · 0 评论 -
【DolphinScheduler】spark任务执行成功,状态却显示失败问题
1、问题描述在ds上执行运行一个spark任务,yarn显示成功运行并有正常输出,但是ds的页面反馈为失败。页面显示:worker节点日志显示:[ERROR] 2021-11-01 10:31:53.418 org.apache.dolphinscheduler.common.utils.HttpUtils:[73] - Connect to 192.168.xxx.xx3:8088 [/192.168.xxx.xx3] failed: 拒绝连接 (Connection refused原创 2021-11-01 14:00:37 · 2503 阅读 · 0 评论 -
【Spark】通过livy2提交spark任务
一、向livy2提交spark自带例子[root@ambari1 Test]# curl -X POST --data '{"file": "/home/Test/spark-examples_2.11-2.2.0.2.6.3.0-235.jar", "className": "org.apache.spark.examples.SparkPi","args":["100"]}' -H "Content-Type: application/json" 192.168.xxx.xx3:8999/batc原创 2021-10-27 16:45:11 · 1446 阅读 · 0 评论 -
【DolphinScheduler】api调用
一、背景一般都是通过页面来创建项目、流程等,但是与第三方系统集成就需要通过调用 API 来管理项目、流程。二、说明在第三方系统集成调用api的时候需要使用token信息,所以要先创建token。三、创建token1、登录调度系统,点击 "安全中心",再点击左侧的 "令牌管理",点击 "令牌管理" 创建令牌2、选择 "失效时间" (Token有效期),选择 "用户" (以指定的用户执行接口操作),点击 "生成令牌" ,拷贝 Token 字符串,然后...原创 2021-10-25 15:47:39 · 6223 阅读 · 0 评论 -
【DolphinScheduler】创建文件
1、创建租户2、创建用户3、切换admin2用户登录并创建文件4、注意上面一定要按顺序执行,如果此用户下无租户是不能创建成功的,会报当前用户下无租户错误。所以创建之前要确保当前用户下有可用的租户。...原创 2021-10-22 11:37:44 · 495 阅读 · 0 评论 -
【DolphinScheduler】集群搭建
集群搭建原创 2021-10-22 11:01:34 · 1776 阅读 · 0 评论 -
【Spark】性能优化之数据倾斜调优
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的业转载 2021-10-15 11:36:13 · 219 阅读 · 0 评论 -
【Spark】提交yarn常用配置结构
spark-submit \ --master yarn \ --deploy-mode cluster \ --driver-cores 4 \ --driver-memory 2g \ --executor-cores 4 \ --num-executors 100 \ --executor-memory 6g \ --name taskName\ --conf spark.default.parallelism=1000 \ --conf spark.s.原创 2021-10-14 15:29:06 · 161 阅读 · 0 评论 -
【Spark】性能优化之资源调优
调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我们必须对Spark作业的资源使转载 2021-10-14 14:26:00 · 163 阅读 · 0 评论 -
【Spark】性能优化之开发调优
调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。原则一:避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接转载 2021-10-14 14:15:06 · 89 阅读 · 0 评论 -
【Spark】join连接测试
1、代码package com.gl.testimport org.apache.spark.sql.{DataFrame, SparkSession}object Test { case class Stu(name: String, sex: String) case class Info(name: String, address: String,phone:String) def main(args: Array[String]): Unit = { val s原创 2021-10-13 14:41:50 · 217 阅读 · 0 评论 -
【Linux】set ff=unix
1、使用说明set ff=unix : 告诉 vi 编辑器,使用unix换行符。2、使用情况有时候在Linux中执行.sh脚本,会出现异常/bin/sh^M: bad interpreter: No such file or directory。原因很可能是你在windows下编写的脚本文件,放到Linux中无法识别格式。3、如何使用vim xx.sh esc > : > set ff=unix > enter > 文件结尾 保存退出...原创 2021-09-15 09:14:18 · 11916 阅读 · 0 评论 -
【Spark GraphX】社交网图分析
目录一、数据1、数据关系图2、数据说明3、顶点表4、边表二、需求三、需求实现1、构造fans网图2、找出年龄大于30岁的顶点3、找出边属性大于5的边4、将每个顶点的年龄+205、将边的属性*36、找出顶点年龄大于30的子图7、创建以User作为顶点的新图8、找出年纪最大的追求者9、计算追求者的平均年纪10、找出顶点5到各顶点的最短距离一、数据1、数据关系图2、数据说明 每个顶点代表一位社交成员,如顶点3...原创 2021-09-10 15:36:59 · 919 阅读 · 1 评论 -
【Spark GraphX】航班数据网图分析
目录一、数据格式二、需求分析三、代码分析一、数据格式从左到右依次为:日、周、航空公司、飞机注册号、航班号、起飞机场编号、起飞机场、到达机场编号、到达机场、预计起飞时间(时分)、起飞时间、起飞延迟(分钟)、到达预计时间、到达时间、到达延迟(分钟)、预计飞行时间、飞行距离; 数据格式:csv格式、逗号分隔;二、需求分析加载数据及网图构建 统计机场数量 统计航线数 计算最长的飞行航线 找出最繁忙的机场 找出最重要的机场 找出最便宜的飞机航线三、代码分析pack.原创 2021-09-10 09:14:48 · 557 阅读 · 0 评论 -
【Spark GraphX】初始Spark GraphX
目录一、基本概念二、图例说明一、基本概念1、Spark GpaphX:是一个分布式图处理框架,基于spark平台提供对图计算和图挖掘简洁易用而丰富多彩的接口,极大地方便了分布式图处理的需求;2、图:图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。3、Spark GraphX中有三个重要的概念:(1)Vertices:对应的RDD名称为VertexRDD,属性包括顶点ID和顶点属性;(2)Edges:对应的RDD名称为EdgeRDD,属性包括源原创 2021-09-08 17:31:14 · 672 阅读 · 0 评论 -
【spark】控制日志输出的方法
【spark】控制日志输出的方法原创 2021-09-07 14:32:31 · 7234 阅读 · 0 评论