2021年04月_Data_IT_Farmer

12月 11月 07月 06月 04月 03月 01月

转载 spark提交任务的三种的方法

spark提交任务的三种的方法在学习Spark过程中，资料中介绍的提交Spark Job的方式主要有三种：1、使用spark 自带的spark-submit工具提交任务通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交，官网和大多数参考资料都是已这种方式提交的，提交命令示例如下：./spark-submit --class com.learn.spark.SimpleApp --master yarn --deploy-mode client --driver-

2021-04-25 14:46:13 8903

转载 HiveSQL/SparkSQL的 round() 、floor()和 ceil()的用法

HiveSQL/SparkSQL的 round() 、floor()和 ceil()的用法1、概述round四舍五入floor 取左值ceil 取右值2、在SparkSQL中的示例spark版本：spark-2.3.4Hive client (version 1.2.2)spark-sql> select round(1.2356);1Time taken: 0.788 seconds, Fetched 1 row(s)spark-sql> ...

2021-04-30 20:11:29 7460 1

转载 SparkSQL—最大连续登录天数、当前连续登录天数、最大连续未登录天数问题

Hive SQL——最大连续登录天数、当前连续登录天数、最大连续未登录天数问题1、数据准备表字段：用户、新增日期、活跃日期原数据表：user_active表1.1、测试数据：比较date和timestamp类型CREATE TABLE test_user_active( name string, install_date timestamp, active_date timestamp);insert overwrite table test_user_act.

2021-04-26 13:23:31 2188

转载 linux服务器的物理CPU，CPU核数，逻辑CPU及Hadoop的Vcore

linux服务器的物理CPU，CPU核数，逻辑CPU及Hadoop的Vcore1、Linux服务器的核数的概念物理CPU：服务器上真实存在的CPU，可以看到CPU的核 (core)：一个CPU上包含多少核(core)，真实存在但不能直接看到总核数 = 物理CPU个数 X 每颗物理CPU的核数总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数在没有开启超线程时，总核数 = 总逻辑CPU个数，如果开启超线程，则总核数 < 总逻辑CPU

2021-04-17 15:28:49 2261

转载 rsync 基本命令和用法

rsync 基本命令和用法以下是rsync系列篇：　1.rsync(一)：基本命令和用法　2.rsync(二)：inotify+rsync详细说明和sersyncinotify+rsync如果要实现定时同步数据，可以在客户端将rsync加入定时任务，但是定时任务的同步时间粒度并不能达到实时同步的要求。在Linux kernel 2.6.13后提供了inotify文件系统监控机制。通过rsync+inotify组合可以实现实时同步。inotify实现工具有几款：inotify本身、.

2021-04-17 10:39:25 469

转载 [转] rsync 用法教程

rsync 用法教程作者：阮一峰日期：2020年8月26日一、简介rsync 是一个常用的 Linux 应用程序，用于文件同步。它可以在本地计算机与远程计算机之间，或者两个本地目录之间同步文件（但不支持两台远程计算机之间的同步）。它也可以当作文件复制工具，替代cp和mv命令。它名称里面的r指的是 remote，rsync 其实就是"远程同步"（remote sync）的意思。与其他文件传输工具（如 FTP 或 scp）不同，rsync 的最大特点是会检查发送方和接收方已有的文..

2021-04-17 10:15:18 365

转载如何为Spark应用程序分配--num-executors，--execuor-cores和--executor-memory

如何为Spark应用程序分配--num-executors，--execuor-cores和--executor-memory1、前言在我们提交spark程序时，应该如何为Spark集群配置–num-executors， - executor-memory和–execuor-cores 呢？1.1、一些资源参数设置的基本知识Hadoop / Yarn / OS Deamons 当我们使用像Yarn这样的集群管理器运行spark应用程序时，会有几个守护进程在后台运行，如NameN...

2021-04-16 21:13:32 732

转载 Spark任务的core，executor，memory资源配置方法

Spark任务的core，executor，memory资源配置方法1、概述执行Spark任务，资源分配是很重要的一方面。如果配置不准确，Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。怎么去配置Spark任务的executors，cores，memory，有如下几个因素需要考虑：数据量任务完成时间点静态或者动态的资源分配上下游应用2、Spark应用当中术语的基本定义：Partitions: 分区是大型分布式数据集的一小部分。 Spark使用分区来管理数据，.

2021-04-16 20:56:00 7137 2

原创 Hive SQL经典使用场景示例

HQL每天购课总额前三的用户原始数据 with tbl_order as ( select '2019-01-01' as dt, 1 as uid, '数学' as course_id, 50 as price union all select '2019-01-01' as dt, 2 as uid, '数学' as course_id, 50 as price union all select '2...

2021-04-16 20:47:33 659

原创 Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE、ROLLUP使用说明和示例

Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE、ROLLUP使用说明和示例0、概述GROUPING SETS：根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL GROUPING__ID：表示结果属于哪一个分组集合，属于虚字段 CUBE：根据GROUP BY的维度的所有组合进行聚合。 ROLLUP：为CUBE的子集，以最左侧的维度为主，从该维度进行层级聚合。这几个分析函数通常用于OLAP中，不能累加，而且需要根据不

2021-04-16 15:42:48 4685 1

原创 spark-sql创建时间维度表

1、概述：在数据分析，数据仓库和数据开发的过程中，经常会用到各种时间粒度，尤其是会按照各种时间粒度（进行上钻或者下钻）出统一逻辑报表数据，此时将面临分析时间粒度爆炸的问题（使用grouping set解决，见另一篇文章），所以有必要产出一个时间维度表。2、时间维度表建表语句CREATE TABLE if not exists dim_date_df( `dt` string comment '日期,格式为20200325,同分区格式', `new_dt` date comment '日期,

2021-04-16 15:00:53 1448

转载 MySQL 存储过程及创建时间维度表

一、概述存储过程MySQL 5.0 版本开始支持存储过程。存储过程（Stored Procedure）是一种在数据库中存储复杂程序，以便外部程序调用的一种数据库对象。# SQL语句：先编译后执行存储过程是为了完成特定功能的SQL语句集，经编译创建并保存在数据库中，用户可通过指定存储过程的名字并给定参数(需要时)来调用执行。存储过程思想上很简单，就是数据库 SQL 语言层面的代码封装与重用。1.1、优点存储过程可封装，并隐藏复杂的商业逻辑。存储过程可以回传值，并可以接受参数。

2021-04-15 20:35:34 743

HelloUDF.zip

Hive 自定义函数UDF开发手把手教程—— 创建临时函数和永久函数代码，具体创建过程参考https://blog.csdn.net/helloxiaozhe/article/details/102498567

2019-10-11

MacDown使用小例子

MacDown使用操作例子——`MarkDown` 是一种 **轻量级的标记语言** , 可以使用普通文本编辑器编写的语言。通过简单的标记语法，使普通的文本具有一定的格式。 `MarkDown` 的优点在于，它用简洁的语法代替了排版。而不像一般我们用的处理软件 Word 或 Pages 有大量的排版、字体设置。它使我们专注于内容的编写。

2018-05-23

使用指针，进一步熟悉链表操作，实现添加，删除，修改，查找，排序等功能

通过使用指针，进一步熟悉链表操作，实现添加，删除，修改，查找，排序等功能。我的课题理解：我把课题定位在学生信息管理系统：创建一个带头结点学生链表，用菜单的形式实现增删改查功能外，用采用冒泡排序实现按学生成绩由高到低排序功能，同时又实现用户登陆，用户注册验证，以及一屏连续向用户展示功能。目录：程序代码实现部分： p1----p14 实验结果部分： P15---P20 实验中遇到问题及解决方法： P21---P25 实验心得： P26

2012-08-08

运算符重载和函数重载

练习对字符串的常用操作，进而加深对类的多态性的理解：如运算符重载和函数重载字符串连接，+=运算符重载求子串: 左边几个字符，，， Left(int nCount) 右边几个，， Right(int nCount) 某个位置开始的几个字符 Mid(int nPos,int nCout) 2..进一步熟悉掌握对类的构造函数重载，拷贝构造的使用目录：程序代码实现部分： p2----p6 实验结果部分： P7 实验中遇到问题及解决方法： P7----P9 实验心得： P9

2012-08-08

停车场管理系统

本次课题描述：（1）有一个两层的停车场, 每层有6个车位, 当第一层车停满后才允许使用第二层. (停车场可用一个二维数组实现, 每个数组元素存放一个车牌号 ) 每辆车的信息包括车牌号、层号、车位号、停车时间共4项，其中停车时间按分钟计算。（2）假设停车场初始状态为第一层已经停有4辆车, 其车位号依次为1—4 , 停车时间依次为20, 15, 10 , 5 . 即先将这四辆车的信息存入文件”car.txt”中( 数组的对应元素也要进行赋值 ) 。停车操作：当一辆车进入停车场时, 先输入其车牌号, 再为它分配一个层号和一个车位号, 停车时间设为5 , 最后将新停入的汽车的信息添加文件”car.txt”中, 并将在此之前的所有车的停车时间加5。（3）收费管理(取车)：当有车离开时, 输入其车牌号, 先按其停车时间计算费用, 每5分钟0.2元. (停车费用可设置一个变量进行保存), 同时从文件”car.txt”中删除该车的信息, 并将该车对应的车位设置为可使用状态(即二维数组对应元素清零). 按用户的选择来判断是否要输出停车收费的总计。系统开发的目标是：（1）停车场内车辆信息及时汇总，随时了解停车场车位的使用情况；（2）统计车辆信息全部电脑化，提高工作效率和工作质量；（3）以停车场内的全部车辆信息为基础，由客户自主选择停车位，尽量达到车位的最高利用率；（4）停车费用的结算也由电脑来完成，解决客户所担心的乱收费问题。（5）用户可以在取车时，留下宝贵的对本次使用的评价，待管理员审核后就可以动态地显示用户界面的正上方。，

2012-08-04

csdn排名规则改了？从上一周的1700多名，在这一周断崖式下降到6400多名，这个是什么骚操作呢，大家来吐槽哈

2021-08-03

TA创建的收藏夹 TA关注的收藏夹

TA关注的人