自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Join中on条件是null的问题讨论

MySQL [dbs]> select * from test1; +----+--------+---------+ | id | stu_id | stu_age | +----+--------+---------+ | 1 | 1 | ...

2020-06-24 00:00:07 68 0

原创 Hadoop伪分布安装详解+MapReduce运行原理+基于MapReduce的KNN算法实现

本篇博客将围绕Hadoop伪分布安装+MapReduce运行原理+基于MapReduce的KNN算法实现这三个方面进行叙述。 (一)Hadoop伪分布安装1、简述Hadoop的安装模式中–伪分布模式与集群模式的区别与联系. Hadoop的安装方式有三种:本地模式,伪分布模式,集群(分布)模...

2016-06-15 16:25:46 10945 22

原创 Flume架构以及应用介绍

在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采...

2016-05-31 12:35:17 93106 33

原创 Flink Runtime(10)-- Flink编译报错集锦

后面更多错误略!!!

2020-07-08 09:25:10 31 0

原创 Flink Runtime(9)-- 自己编译Flink

2020-07-08 09:23:42 25 0

原创 Flink Runtime(8)-- 创建Flink项目及依赖管理

pom.xml示例文件: <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE file distribu...

2020-07-05 22:26:57 54 0

原创 Flink Runtime(7)--搭建非YARN的主从FLINK集群

启动任务: 运行结果:

2020-07-05 12:04:13 25 0

原创 Flink Runtime(6)

2020-07-04 22:15:43 26 0

原创 Flink Runtime(5)

2020-07-04 20:30:52 36 0

原创 Flink的一些核心概念与编程模型(4)

2020-06-25 10:19:10 28 0

原创 Flink的一些核心概念与编程模型(3)

2020-06-24 09:17:57 38 0

原创 Flink API $ SQL

sql 流处理 demo

2020-06-23 09:05:58 47 0

原创 Flink中wordCount之批处理和流处理(2)

(1)批处理 package com.dajiangtai.helloword.batch; import org.apache.flink.api.common.JobExecutionResult; import org.apache.flink.api.common.accumulator...

2020-06-23 09:05:36 37 0

原创 Flink生态介绍(1)

pass

2020-06-23 09:05:14 30 0

原创 阿里通用的序列化与反序列化方式

(一) Java本身自带的序列化与反序列化方式Serializable 参考:https://www.cnblogs.com/zhangmingyang/p/10445581.html (二) 通用的序列化与反序列化方式JSON fastjson所需的jar包和源码:https://downloa...

2020-06-14 10:13:43 72 0

原创 Hive时间函数

无论在哪门语言当中,时间函数显得都是特别重要的. 参考博客: https://www.cnblogs.com/0xcafedaddy/p/9360492.html https://www.cnblogs.com/shujuxiong/p/9929297.html https://www.c...

2020-05-02 10:11:32 163 0

原创 归并排序

归并排序python简单版本 ```python #!/usr/bin/env python3 # -*- coding:utf-8 -*- #合并,相当于是两个升序有序数组合并为一个升序数组,在这里需要借助一个辅助的数组,保存排好序的数组. def merge(left, right)...

2020-03-24 09:09:50 62 0

原创 词频统计:获取排名前3的单词.

package ThreadProcess; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.util.*; /* * 词频统计:获取排名前3的...

2020-03-10 09:51:14 186 1

原创 快速排序

快速排序(Quicksort)是对冒泡排序的一种改进。 大家这么理解:就是一堆人,随便选择一个,比他矮的左边,比他高的右边… def quicksort(arr): if len(arr) <= 1: return arr pivot...

2020-03-09 08:50:40 392 0

原创 KafkaOffsetMonitor:监控消费者和延迟的队列

参考博客: https://www.orchome.com/54 安装步骤: (1)下载软件 KafkaOffsetMonitor-assembly-0.3.0-SNAPSHOT.jar (2)解压打开:KafkaOffsetMonitor-assembly-0.3.0-SNAPSHOT.jar\...

2020-02-03 11:22:44 208 0

原创 KafkaOffsetMonitor:监控消费者和延迟的队列

效果图:

2019-12-21 13:30:47 62 0

原创 学习笔记(01):深入理解RabbitMQ消息队列的使用-(17)RPC通信机制当中匿名回调队列的使用以及程序的优化...

本课程将涵盖RabbitMQ的下述知识:RabbitMQ单节点服务搭建以及集群的搭建、RabbitMQ的整体架构及各个组件的功能、 RabbitMQ当中生产者以及消费者的具体实现、消费者如何做到消息的确认、RabbitMQ如何做到消息的公平分发、 RabbitMQ当中fanout、direct...

2019-11-26 23:13:10 78 0

原创 Hive用array_contains判断列表是否包含某个元素

代码示例: select task_id, task_code, task_version, case when array_contains(collect_set(tag_id), 599) or array_contai...

2019-11-04 19:55:28 4465 0

原创 hive-create table

场景:因业务特殊需求,临时需要创建一张表!!! (1)表存储格式是textfile(文本格式) 建表语句: View Code 查看表结构: CREATE TABLE test_1( task_id int, task_name string) ROW FORMAT DELIMITED FIELD...

2019-10-12 16:33:14 127 0

原创 HIVE优化系列(1)-- 自动合并输出的小文件

小文件的缺陷我们就不说了,直接进入到正题. HIVE自动合并输出的小文件的主要优化手段为: set hive.merge.mapfiles = true:在只有map的作业结束时合并小文件, set hive.merge.mapredfiles = true:在Map-Reduce的任务结束时合并...

2019-09-02 21:52:06 731 0

转载 Hadoop中的jobhistory配置与启动停止

参考博客: https://blog.csdn.net/xiaoduan_/article/details/79689882 核心配置文件:只有两个 yarn-site.xml <!-- 开启日志聚合 --> <property> <name>yar...

2019-08-13 12:09:17 277 0

原创 Hive表生成函数之---explode函数应用

通过explode+lateral view的具体实例讲述一下具体应用. 实例程序1:通过explode+lateral view实现word count 表结构: CREATE EXTERNAL TABLE doc( line string) ROW FORMAT DELIMITED FIELD...

2019-07-31 08:00:35 390 0

原创 Java反射机制

declaredField.set(obj, value); Object res = Method.invoke(obj, args); 在Java当中,反射是最重要的知识点,没有之一!今天我们就重点介绍一下Java当中的反射机制. 首先大家需要知道反射的概念,比较经典的解释分为以下几种: 通过...

2019-06-30 08:51:25 98 0

原创 Python面向对象--神秘的元类

同样效果的代码: def __init__(cls,cls_name,cls_bases,cls_dict): type.__init__(cls,cls_name,cls_bases,cls_dict) def __new__(cls, cls_name, cls_bases,cls_...

2019-06-30 08:49:34 137 0

原创 Java静态代理详解

第一:Java静态代理的实现(本质上就是一个面向对象组合功能) 逻辑图: 在上图当中,有这么几个概念: 目标对象:Target为目标对象,即真正实现业务的对象. 代理对象:ProxyDemo为代理对象. 增强:在目标对象基础上添加的功能称之为增强.(即为被装饰者添加新的功能) 我们先定义一个接口...

2019-05-25 08:22:32 224 0

原创 MySQL空串到Hive

public class test_me { public static void main(String[] args) { String line = "38 2017-04-22 11:51:23 ...

2019-04-19 21:23:04 217 0

转载 使用SwitchyOmega设置Chrome代理

转载网址:https://blog.csdn.net/A_Z666666/article/details/80661456

2019-03-28 07:41:43 18333 1

原创 MapReduce程序运行流程

2016年4月6日10:34:10 MapReduce程序运行流程 参考:https://blog.csdn.net/alex_bean/article/details/51469630 作者:数据分析玩家 一直以来虽然都在学习hadoop,也打算写一篇关于MapReduce程序运行流...

2019-03-08 21:15:06 3359 2

转载 虚拟机彻底删除

最近可能是电脑出了点问题,虚拟机需要卸载一下,结果各种方法都适用了,什么控制面板卸载,什么注册表卸载,但是最后 都没有成功,最后终于百度到了一篇文章,才成功: https://zhidao.baidu.com/question/1707772524076104020.html(转载网址) 1...

2019-03-06 13:20:02 2381 1

原创 深入理解Python元类(原创)

同样效果的代码: def __init__(cls,cls_name,cls_bases,cls_dict): type.__init__(cls,cls_name,cls_bases,cls_dict) def __new__(cls, cls_name...

2019-02-23 14:12:17 3012 4

转载 信息增益相关博客转载

参考:https://www.jb51.net/article/142555.htm

2019-02-17 12:46:55 110 0

原创 eclipse使用技巧整理

eclipse中导入项目从本地: https://blog.csdn.net/ancientear/article/details/86772425 https://jingyan.baidu.com/article/0aa22375712be088cd0d644d.html eclipse...

2019-02-13 11:59:03 2113 0

原创 Java内存分配深度解析

内存分配程序: 实例程序1: public class Test1 { public static void main(String[] args) { String str1 = new String("china"); String str2 ...

2019-01-31 19:07:32 430 3

原创 大数据面试题目

一、数据结构与算法     1.二叉树前序、中序、后续遍历方式(递归以及非递归)     2.二叉树的深度以及广度遍历方式     3.二叉树遍历情况中所有连续节点的最大的值     4.求数组所有可能的子数组     5.给定一个数,求一个有序数组的两个数的和满足这个数(可以拓展一下变成两个无序...

2018-12-08 10:22:06 430 2

原创 深入理解python当中的函数

作为一个Python的初学者来说,深入理解Python中函数的概念是一件重要的事情。 重点1:如何理解函数是第一类对象(一等公民) 函数是第一类对象的概念: 第一:函数的名字是对函数的引用 第二:函数作为第一类对象可以赋值给其他的变量 第三:可以作为函数的参数传递给其他的函数 第四...

2018-11-30 15:05:50 439 0

提示
确定要删除当前文章?
取消 删除