自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

helloxiaozhe的博客

信者通达,数据为王,自强不息,解码未来——数据码农宣言

  • 博客(12)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

转载 spark提交任务的三种的方法

spark提交任务的三种的方法在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有三种:1、使用spark 自带的spark-submit工具提交任务通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这种方式提交的,提交命令示例如下:./spark-submit --class com.learn.spark.SimpleApp --master yarn --deploy-mode client --driver-

2021-04-25 14:46:13 8903

转载 HiveSQL/SparkSQL的 round() 、floor()和 ceil()的 用法

HiveSQL/SparkSQL的 round() 、floor()和 ceil()的 用法1、概述round四舍五入floor 取左值ceil 取右值2、在SparkSQL中的示例spark版本:spark-2.3.4Hive client (version 1.2.2)spark-sql> select round(1.2356);1Time taken: 0.788 seconds, Fetched 1 row(s)spark-sql> ...

2021-04-30 20:11:29 7460 1

转载 SparkSQL—最大连续登录天数、当前连续登录天数、最大连续未登录天数问题

Hive SQL——最大连续登录天数、当前连续登录天数、最大连续未登录天数问题1、数据准备表字段:用户、新增日期、活跃日期 原数据表:user_active表1.1、测试数据:比较date和timestamp类型CREATE TABLE test_user_active( name string, install_date timestamp, active_date timestamp);insert overwrite table test_user_act.

2021-04-26 13:23:31 2188

转载 linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore

linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore1、Linux服务器的核数的概念物理CPU: 服务器上真实存在的CPU,可以看到CPU的核 (core): 一个CPU上包含多少核(core),真实存在但不能直接看到 总核数 = 物理CPU个数 X 每颗物理CPU的核数 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 在没有开启超线程时,总核数 = 总逻辑CPU个数,如果开启超线程,则总核数 < 总逻辑CPU

2021-04-17 15:28:49 2261

转载 rsync 基本命令和用法

rsync 基本命令和用法以下是rsync系列篇: 1.rsync(一):基本命令和用法 2.rsync(二):inotify+rsync详细说明和sersyncinotify+rsync如果要实现定时同步数据,可以在客户端将rsync加入定时任务,但是定时任务的同步时间粒度并不能达到实时同步的要求。在Linux kernel 2.6.13后提供了inotify文件系统监控机制。通过rsync+inotify组合可以实现实时同步。inotify实现工具有几款:inotify本身、.

2021-04-17 10:39:25 469

转载 [转] rsync 用法教程

rsync 用法教程作者:阮一峰日期:2020年8月26日一、简介rsync 是一个常用的 Linux 应用程序,用于文件同步。它可以在本地计算机与远程计算机之间,或者两个本地目录之间同步文件(但不支持两台远程计算机之间的同步)。它也可以当作文件复制工具,替代cp和mv命令。它名称里面的r指的是 remote,rsync 其实就是"远程同步"(remote sync)的意思。与其他文件传输工具(如 FTP 或 scp)不同,rsync 的最大特点是会检查发送方和接收方已有的文..

2021-04-17 10:15:18 365

转载 如何为Spark应用程序分配--num-executors,--execuor-cores和--executor-memory

如何为Spark应用程序分配--num-executors,--execuor-cores和--executor-memory1、前言在我们提交spark程序时,应该如何为Spark集群配置–num-executors, - executor-memory和–execuor-cores 呢?1.1、一些资源参数设置的基本知识Hadoop / Yarn / OS Deamons 当我们使用像Yarn这样的集群管理器运行spark应用程序时,会有几个守护进程在后台运行,如NameN...

2021-04-16 21:13:32 732

转载 Spark任务的core,executor,memory资源配置方法

Spark任务的core,executor,memory资源配置方法1、概述执行Spark任务,资源分配是很重要的一方面。如果配置不准确,Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。怎么去配置Spark任务的executors,cores,memory,有如下几个因素需要考虑:数据量 任务完成时间点 静态或者动态的资源分配 上下游应用2、Spark应用当中术语的基本定义:Partitions: 分区是大型分布式数据集的一小部分。 Spark使用分区来管理数据,.

2021-04-16 20:56:00 7137 2

原创 Hive SQL经典使用场景示例

HQL每天购课总额前三的用户原始数据 with tbl_order as ( select '2019-01-01' as dt, 1 as uid, '数学' as course_id, 50 as price union all select '2019-01-01' as dt, 2 as uid, '数学' as course_id, 50 as price union all select '2...

2021-04-16 20:47:33 659

原创 Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE、ROLLUP使用说明和示例

Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE、ROLLUP使用说明和示例0、概述GROUPING SETS:根据不同的维度组合进行聚合,等价于将不同维度的GROUP BY结果集进行UNION ALL GROUPING__ID:表示结果属于哪一个分组集合,属于虚字段 CUBE:根据GROUP BY的维度的所有组合进行聚合。 ROLLUP:为CUBE的子集,以最左侧的维度为主,从该维度进行层级聚合。这几个分析函数通常用于OLAP中,不能累加,而且需要根据不

2021-04-16 15:42:48 4685 1

原创 spark-sql创建时间维度表

1、概述:在数据分析,数据仓库和数据开发的过程中,经常会用到各种时间粒度,尤其是会按照各种时间粒度(进行上钻或者下钻)出统一逻辑报表数据,此时将面临分析时间粒度爆炸的问题(使用grouping set解决,见另一篇文章),所以有必要产出一个时间维度表。2、时间维度表建表语句CREATE TABLE if not exists dim_date_df( `dt` string comment '日期,格式为20200325,同分区格式', `new_dt` date comment '日期,

2021-04-16 15:00:53 1448

转载 MySQL 存储过程及创建时间维度表

一、概述存储过程MySQL 5.0 版本开始支持存储过程。存储过程(Stored Procedure)是一种在数据库中存储复杂程序,以便外部程序调用的一种数据库对象。# SQL语句:先编译后执行存储过程是为了完成特定功能的SQL语句集,经编译创建并保存在数据库中,用户可通过指定存储过程的名字并给定参数(需要时)来调用执行。存储过程思想上很简单,就是数据库 SQL 语言层面的代码封装与重用。1.1、优点存储过程可封装,并隐藏复杂的商业逻辑。 存储过程可以回传值,并可以接受参数。

2021-04-15 20:35:34 743

HelloUDF.zip

Hive 自定义函数UDF开发手把手教程—— 创建临时函数和永久函数代码,具体创建过程参考https://blog.csdn.net/helloxiaozhe/article/details/102498567

2019-10-11

MacDown使用小例子

MacDown使用操作例子——`MarkDown` 是一种 **轻量级的标记语言** , 可以使用普通文本编辑器编写的语言。通过简单的标记语法,使普通的文本具有一定的格式。 `MarkDown` 的优点在于,它用简洁的语法代替了排版。而不像一般我们用的处理软件 Word 或 Pages 有大量的排版、字体设置。它使我们专注于内容的编写。

2018-05-23

使用指针,进一步熟悉链表操作,实现添加,删除,修改,查找,排序等功能

通过使用指针,进一步熟悉链表操作,实现添加,删除,修改,查找,排序等功能。 我的课题理解: 我把课题定位在学生信息管理系统:创建一个带头结点学生链表,用菜单的形式实现增删改查功能外,用采用冒泡排序实现按学生成绩由高到低排序功能,同时又实现用户登陆,用户注册验证,以及一屏连续向用户展示功能。 目录: 程序代码实现部分: p1----p14 实验结果部分: P15---P20 实验中遇到问题及解决方法: P21---P25 实验心得: P26

2012-08-08

运算符重载和函数重载

练习对字符串的常用操作,进而加深对类的多态性的理解: 如运算符重载和函数重载 字符串连接,+=运算符重载 求子串: 左边几个字符,,, Left(int nCount) 右边几个,, Right(int nCount) 某个位置开始的几个字符 Mid(int nPos,int nCout) 2..进一步熟悉掌握对类的构造函数重载,拷贝构造的使用 目录: 程序代码实现部分: p2----p6 实验结果部分: P7 实验中遇到问题及解决方法: P7----P9 实验心得: P9

2012-08-08

停车场管理系统

本次课题描述: (1) 有一个两层的停车场, 每层有6个车位, 当第一层车停满后才允许使用第二层. (停车场可用一个二维数组实现, 每个数组元素存放一个车牌号 ) 每辆车的信息包括车牌号、 层号、 车位号、停车时间共4项, 其中停车时间按分钟计算 。 (2) 假设停车场初始状态为第一层已经停有4辆车, 其车位号依次为1—4 , 停车时间依次为20, 15, 10 , 5 . 即先将这四辆车的信息存入文件”car.txt”中( 数组的对应元素也要进行赋值 ) 。 停车操作:当一辆车进入停车场时, 先输入其车牌号, 再为它分配一个层号和一个车位号, 停车时间设为5 , 最后将新停入的汽车的信息添加文件”car.txt”中, 并将在此之前的所有车的停车时间加5。 (3) 收费管理(取车): 当有车离开时, 输入其车牌号, 先按其停车时间计算费用, 每5分钟0.2元. (停车费用可设置一个变量进行保存), 同时从文件”car.txt”中删除该车的信息, 并将该车对应的车位设置为可使用状态(即二维数组对应元素清零). 按用户的选择来判断是否要输出停车收费的总计。 系统开发的目标是: (1) 停车场内车辆信息及时汇总,随时了解停车场车位的使用情况; (2) 统计车辆信息全部电脑化,提高工作效率和工作质量; (3) 以停车场内的全部车辆信息为基础,由客户自主选择停车位,尽量达到车位的最高利用率; (4) 停车费用的结算也由电脑来完成,解决客户所担心的乱收费问题。 (5) 用户可以在取车时,留下宝贵的对本次使用的评价,待管理员审核后就可以动态地显示用户界面的正上方。,

2012-08-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除