- 博客(12)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
转载 spark提交任务的三种的方法
spark提交任务的三种的方法在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有三种:1、使用spark 自带的spark-submit工具提交任务通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这种方式提交的,提交命令示例如下:./spark-submit --class com.learn.spark.SimpleApp --master yarn --deploy-mode client --driver-
2021-04-25 14:46:13 8903
转载 HiveSQL/SparkSQL的 round() 、floor()和 ceil()的 用法
HiveSQL/SparkSQL的 round() 、floor()和 ceil()的 用法1、概述round四舍五入floor 取左值ceil 取右值2、在SparkSQL中的示例spark版本:spark-2.3.4Hive client (version 1.2.2)spark-sql> select round(1.2356);1Time taken: 0.788 seconds, Fetched 1 row(s)spark-sql> ...
2021-04-30 20:11:29 7460 1
转载 SparkSQL—最大连续登录天数、当前连续登录天数、最大连续未登录天数问题
Hive SQL——最大连续登录天数、当前连续登录天数、最大连续未登录天数问题1、数据准备表字段:用户、新增日期、活跃日期 原数据表:user_active表1.1、测试数据:比较date和timestamp类型CREATE TABLE test_user_active( name string, install_date timestamp, active_date timestamp);insert overwrite table test_user_act.
2021-04-26 13:23:31 2188
转载 linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore
linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore1、Linux服务器的核数的概念物理CPU: 服务器上真实存在的CPU,可以看到CPU的核 (core): 一个CPU上包含多少核(core),真实存在但不能直接看到 总核数 = 物理CPU个数 X 每颗物理CPU的核数 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 在没有开启超线程时,总核数 = 总逻辑CPU个数,如果开启超线程,则总核数 < 总逻辑CPU
2021-04-17 15:28:49 2261
转载 rsync 基本命令和用法
rsync 基本命令和用法以下是rsync系列篇: 1.rsync(一):基本命令和用法 2.rsync(二):inotify+rsync详细说明和sersyncinotify+rsync如果要实现定时同步数据,可以在客户端将rsync加入定时任务,但是定时任务的同步时间粒度并不能达到实时同步的要求。在Linux kernel 2.6.13后提供了inotify文件系统监控机制。通过rsync+inotify组合可以实现实时同步。inotify实现工具有几款:inotify本身、.
2021-04-17 10:39:25 469
转载 [转] rsync 用法教程
rsync 用法教程作者:阮一峰日期:2020年8月26日一、简介rsync 是一个常用的 Linux 应用程序,用于文件同步。它可以在本地计算机与远程计算机之间,或者两个本地目录之间同步文件(但不支持两台远程计算机之间的同步)。它也可以当作文件复制工具,替代cp和mv命令。它名称里面的r指的是 remote,rsync 其实就是"远程同步"(remote sync)的意思。与其他文件传输工具(如 FTP 或 scp)不同,rsync 的最大特点是会检查发送方和接收方已有的文..
2021-04-17 10:15:18 365
转载 如何为Spark应用程序分配--num-executors,--execuor-cores和--executor-memory
如何为Spark应用程序分配--num-executors,--execuor-cores和--executor-memory1、前言在我们提交spark程序时,应该如何为Spark集群配置–num-executors, - executor-memory和–execuor-cores 呢?1.1、一些资源参数设置的基本知识Hadoop / Yarn / OS Deamons 当我们使用像Yarn这样的集群管理器运行spark应用程序时,会有几个守护进程在后台运行,如NameN...
2021-04-16 21:13:32 732
转载 Spark任务的core,executor,memory资源配置方法
Spark任务的core,executor,memory资源配置方法1、概述执行Spark任务,资源分配是很重要的一方面。如果配置不准确,Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。怎么去配置Spark任务的executors,cores,memory,有如下几个因素需要考虑:数据量 任务完成时间点 静态或者动态的资源分配 上下游应用2、Spark应用当中术语的基本定义:Partitions: 分区是大型分布式数据集的一小部分。 Spark使用分区来管理数据,.
2021-04-16 20:56:00 7137 2
原创 Hive SQL经典使用场景示例
HQL每天购课总额前三的用户原始数据 with tbl_order as ( select '2019-01-01' as dt, 1 as uid, '数学' as course_id, 50 as price union all select '2019-01-01' as dt, 2 as uid, '数学' as course_id, 50 as price union all select '2...
2021-04-16 20:47:33 659
原创 Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE、ROLLUP使用说明和示例
Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE、ROLLUP使用说明和示例0、概述GROUPING SETS:根据不同的维度组合进行聚合,等价于将不同维度的GROUP BY结果集进行UNION ALL GROUPING__ID:表示结果属于哪一个分组集合,属于虚字段 CUBE:根据GROUP BY的维度的所有组合进行聚合。 ROLLUP:为CUBE的子集,以最左侧的维度为主,从该维度进行层级聚合。这几个分析函数通常用于OLAP中,不能累加,而且需要根据不
2021-04-16 15:42:48 4685 1
原创 spark-sql创建时间维度表
1、概述:在数据分析,数据仓库和数据开发的过程中,经常会用到各种时间粒度,尤其是会按照各种时间粒度(进行上钻或者下钻)出统一逻辑报表数据,此时将面临分析时间粒度爆炸的问题(使用grouping set解决,见另一篇文章),所以有必要产出一个时间维度表。2、时间维度表建表语句CREATE TABLE if not exists dim_date_df( `dt` string comment '日期,格式为20200325,同分区格式', `new_dt` date comment '日期,
2021-04-16 15:00:53 1448
转载 MySQL 存储过程及创建时间维度表
一、概述存储过程MySQL 5.0 版本开始支持存储过程。存储过程(Stored Procedure)是一种在数据库中存储复杂程序,以便外部程序调用的一种数据库对象。# SQL语句:先编译后执行存储过程是为了完成特定功能的SQL语句集,经编译创建并保存在数据库中,用户可通过指定存储过程的名字并给定参数(需要时)来调用执行。存储过程思想上很简单,就是数据库 SQL 语言层面的代码封装与重用。1.1、优点存储过程可封装,并隐藏复杂的商业逻辑。 存储过程可以回传值,并可以接受参数。
2021-04-15 20:35:34 743
HelloUDF.zip
2019-10-11
MacDown使用小例子
2018-05-23
使用指针,进一步熟悉链表操作,实现添加,删除,修改,查找,排序等功能
2012-08-08
运算符重载和函数重载
2012-08-08
停车场管理系统
2012-08-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人