自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Hadoop中 -put命令的出现两个一样的目录

直接贴图 遇到的问题 解决: hdfs dfs -put /xxx/xx.csv /xxx 原因: 如果是空目录,或者说还没用此文件夹在hdfs上面,那么先创建文件夹后,在put数据就不要加 -f ,如果想要覆盖写入(强行覆盖之前的文件),此时你已经之前上传过了文件,并且有文件夹了,所以你可...

2020-05-12 23:22:38 40 0

转载 Hive分析窗口函数之GROUPING SETS,CUBE和ROLLUP

这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计。环境信息:Hive版本为apache-hive-0.14.0-binHadoop版本为hadoop-2.6...

2020-03-23 17:56:45 48 0

转载 Hive中with cube、with rollup、grouping sets用法

表结构 CREATE TABLE test (f1 string, f2 string, f3 string, ...

2020-03-23 15:54:13 60 0

原创 kafka最全组件详解

(1)producer:消息生产者,发布消息到 kafka 集群的终端或服务。 (2)broker:kafka 集群中包含的服务器。(kafka实例) (3)topic:每条发布到 kafka 集群的消息属于的类别,即 kafka 是面向 topic 的。 (4)partition: a)part...

2020-03-19 10:54:29 179 0

转载 Flink流计算编程--watermark(水位线)简介

【本文转自Flink流计算编程--watermark(水位线)简介】1、watermark的概念watermark是一种衡量Event Time进展的机制,它是数据本身的一个隐藏属性。通常基于...

2020-03-19 10:44:00 36 0

转载 impala与hive的比较以及impala的优缺点

 最近读的几篇关于impala的文章,这篇良心不错:https://www.biaodianfu.com/impala.html(本文截取部分内容)     &n...

2020-03-14 16:27:58 61 0

原创 Hive中行转列、列转行(UDAF 与 UDTF)

1、行转列 表结构: create table person_info( name string, constellation string, blood_type string) row format delimited fields terminated by “\t”; load data...

2020-03-09 22:02:12 78 0

原创 Hive累计求和

create table t_access_times(username string,month string,salary int) row format delimited fields terminated by ‘,’; load data local inpath ‘/home/huj...

2020-03-09 21:56:53 184 0

转载 clickhouse简单了解及使用

一、clickhouse:日处理记录数:十亿级 1.开源的列式存储的数据管理系统 2.支持线性扩展 3.简单方便 4.高可靠性 5.容错(支持多主机异步复制,可以跨多个数据中心部署, 单个节点或整个数据中心的停机时间不会影响系统的读写性能) 二、关键功能-应用场景 特性: 深度存储 ...

2018-11-30 10:36:21 15859 2

转载 clickhouse SQL查询语句 【译自Github 英文文档】

内容有缩减,原文请点击这里创建数据库CREATE DATABASE [IF NOT EXISTS] db_name创建表CREATE TABLE可以有几种形式。创建一张表,最好指定引擎结构CREATE [TE...

2018-11-30 10:23:42 2665 0

原创 java版数据结构与算法—堆、堆排序

优先级队列:用有序数组实现,删除最大数最快O(1),插入最慢 用堆实现优先级队列,插入和删除都很快O(logN) 堆:是一种树,一种特殊的二叉树 特点: 1.他是完全的二叉树,除了树的最后一层节点不需要是满的,其他一层从左到右都是满的。 2.它常常用一个数组实现。 3.堆中每一个节点都...

2018-11-28 22:39:04 133 0

原创 java版数据结构与算法—哈希表(再哈希法)

package com.zoujc.hashDouble; /** * 哈希表:再哈希法 */ public class DataItem { private int iData; public DataItem(int data){ iData = data...

2018-11-27 21:58:29 449 0

原创 java版数据结构与算法—线性探测哈希表

package com.zoujc.hash; /** *哈希表: 优点:速度快(插入和查找) * 缺点:基于数组,不能有序遍历 * 键值对:通过键访问值 * 冲突:不同的关键字经过哈希化得到的数组下标出现了重复 * 解决冲突:1.开放地址法(线性探测 二次探...

2018-11-26 23:09:20 1349 0

原创 java版数据结构与算法—二叉树遍历

package com.zoujc.tree; import java.util.LinkedList; import java.util.Stack; /** * 二叉树遍历 */ public class Binaryorder { private TreeNode root;...

2018-11-25 18:36:10 1116 1

原创 java版数据结构与算法—递归(汉若塔)

package com.zoujc.triangle; /** * 汉诺塔 */ class TowersApp { public static void main(String[] args){ doTowers(3,'A','B�...

2018-11-24 21:09:53 106 0

原创 java版数据结构与算法—递归(二分法查找)

package com.zoujc.triangle; /** * 递归:二分查找 */ class OrdArray { private int[] a; private int nElems; public OrdArray(int max){ a...

2018-11-24 00:26:11 198 0

原创 java版数据结构与算法—递归(变位字)

package com.zoujc.triangle; import java.io.IOException; /** * 变位字(递归的效率并不如for循环高) */ class AnagramApp { static int size; static int count...

2018-11-22 22:38:43 149 0

原创 java版数据结构与算法—递归(三角数字)

package com.zoujc.triangle; /** * 递归:三角数字 */ class TriangleApp { public static void main(String[] args){ int n = 10; System.ou...

2018-11-21 22:19:15 54 0

原创 java版数据结构与算法—有序链表

package com.zoujc.sortLink; /** * 有序链表 */ class Link { public int dData; public Link next; public Link(int dd){ dData = dd; ...

2018-11-20 21:08:17 69 0

原创 java版数据结构与算法—链表实现队列

package com.zoujc.QueueLink; /** * 链表实现队列 */ class FirstLastList { private Link first; private Link last; public FirstLastList(){ ...

2018-11-19 22:41:43 66 0

原创 java版数据结构与算法—链表实现栈

package com.zoujc; /** * 用链表实现栈 */ class MyLinkStack { private Link first; public MyLinkStack(){ first = null; } //判空 ...

2018-11-19 22:23:00 82 0

原创 java版数据结构与算法—双端链表

/** * 双端链表 */ class MyLinkList { public Link first; public Link last; public MyLinkList(){ first = null; last = null; ...

2018-11-18 22:48:01 50 0

原创 java版数据结构与算法—优先级队列

/** * 优先级队列,排好序的队列插入和删除 */ class PriorityQueue { int a[]; int maxSize; int nItems; public PriorityQueue(int size){ maxSize ...

2018-11-16 22:41:29 68 0

原创 java版数据结构与算法—队列、两个栈实现一个队列

/** * 队列:先进先出 */ class MyQueue { int a[]; int maxSize; //大小 int front; //开头 int rear; //结尾 int nItems; //元素个数 /...

2018-11-16 21:56:16 87 0

原创 java版数据结构与算法—栈(判断括号是否匹配)

/** * 括号是否匹配 {} () [] */ class IsMatch { private char arr[]; private int maxSize; private int top; public IsMatch(int size)...

2018-11-15 23:06:24 388 0

原创 java版数据结构与算法—栈(数组方式)

/** * 栈就是一组记录,表示形式先进后出 * * 数组 链表 树 适应于数据库应用中做数据记录 * 栈和队列 1.通常情况作为程序员的工具来运用 * 2.受限访问 * 3.更加抽象(主要通过接口进行定义) * ...

2018-11-15 21:37:05 76 0

原创 java版数据结构与算法—快速排序

/** * @author zoujc * @date 2018/11/15 * 快速排序:时间复杂度:O(NlogN) */ public class ArrayQuickSort { public static void quickSort(int arr[], int ...

2018-11-15 18:15:49 124 1

原创 spark分组取topN

准备数据: aa 11 bb 11 cc 34 aa 22 bb 67 cc 29 aa 36 bb 33 cc 30 aa 42 bb 44 cc 49 import org.apache.spark.{SparkConf, SparkContext} /** ...

2018-11-15 17:34:42 294 0

原创 java版数据结构与算法—插入排序

/** * 插入排序:时间复杂度O(n^2),但比冒泡排序,选择排序要好 * 把下标为1的先取出来,当做临时变量,下标为0的元素相当于排好序的 * 然后把下标为1的元素与下标为0的元素比较(升序),如果临时变量比下标为0 * 的元素小,则下标为0的元素向后移动一个下标,临时变量插到...

2018-11-14 22:14:45 99 0

原创 java版数据结构与算法—选择排序

/** * 选择排序:时间复杂度O(n^2), * 比冒泡排序稍好点,交换次数少 */ class ArraySelect { public static void selectSort(int arr[]){ for(int i=0;i&...

2018-11-14 21:23:55 51 0

原创 java版数据结构与算法—冒泡排序

/** * 冒泡排序规则: * 1.比较两个相邻对象 * 2.如果左边的大于右边的,则调换位置 * 3.向右移动一个位置,比较接下来的两个对象 * 时间复杂度:O(log n^2) */ class ArrayBubble { public static voi...

2018-11-13 22:42:20 34 0

原创 java版数据结构与算法—有序数组和二分法查找

class OrderlyAndBinarySearch { private long[] a; private int nElems; public OrderlyAndBinarySearch(int maxSize){ a = new ...

2018-11-12 22:39:25 106 0

原创 spark中常用算子含义及区别

Transform: 1. map:rdd中的每项数据进行map里的操作后,会形成一个个新的元素的新rdd flatMap:在map的基础上进行扁平化,形成一个新的rdd 2. distinct:转换操作,去重 filter:对rdd中的元素进行过滤 filterByRange:...

2018-11-12 17:37:48 1102 0

原创 java版数据结构与算法—数组、替换字符串中的空格、找出旋转数组中最小值

class ArrayTest { private long[] a; private int nElems; public ArrayTest(int max){ a = new long[max]; nElems = 0; } ...

2018-11-12 09:16:40 53 0

原创 shell获取上周的周一和周日上个月第一天和最后一天

1.获取上周的周一日期和上周的周日日期(方法一): date=`date --date '-7 days' +%Y-%m-%d` echo $date if [ "$1" != "" ];then ...

2018-11-07 16:18:20 1588 0

转载 spark算子系列文章

              &nbs...

2018-11-02 17:51:19 43 0

原创 hive 去重

数据: select distinct id,name,eat from test1; select max(id),max(name),max(eat) from test1; select distinct * from test1; select id,name,eat from (...

2018-11-02 17:28:43 926 0

原创 spark高级算子(二)

import org.apache.spark.{SparkConf, SparkContext} /** * @author zoujc * @date 2018/11/1 */ object SparkTest2 { def main(args: Array[String]...

2018-11-01 17:09:33 98 0

原创 spark高级算子(一)

import org.apache.spark.{SparkConf, SparkContext} /** * @author zoujc * @date 2018/11/1 */ object SparkRDDTest1 { def main(args: Array[Stri...

2018-11-01 14:50:59 152 0

原创 spark常用算子

import org.apache.spark.{SparkConf, SparkContext} /** * @author zoujc * @date 2018/10/31 */ object LearnRDD { def main(args: Arr...

2018-10-31 18:16:09 56 0

提示
确定要删除当前文章?
取消 删除