diaoci2818-CSDN博客

转载大数据架构（PB级）

1.随着互联网快速发展，数据量的快速膨胀，我们日增3000多亿数据量，因此需要针对PB级存储、几百TB的增量数据处理架构设计2.系统逻辑划分总图：暂不便透露3.系统架构图：4.大数据计算引擎我们是采用Apache Flink流式计算框架，并对其进行了一些优化，目前在生产环境，已经基本稳定运行! 欢迎大家评论！！！转载于:https://www...

2019-08-15 11:38:00 855

转载 flink Window的Timestamps/Watermarks和allowedLateness的区别

Watermartks是通过additional的时间戳来控制窗口激活的时间，allowedLateness来控制窗口的销毁时间。注：因为此特性包括官方文档在1.3～1.5版本均未做改变，所以此处使用1.5版的文档在EventTime的情况下， 1. 一条记录的事件时间来控制此条记录属于哪一个窗口，Watermarks来控制这个...

2018-07-08 19:07:00 289

转载 flink统计根据账号每30秒金额的平均值

package com.zetyun.streaming.flink;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.tuple.Tuple2;import org.a...

2018-04-24 15:20:00 1033

转载位图排序:从1亿个数字中取出最大的100个

package com.zetyun.test;import java.util.Random;public class Top100 { public static int[] getTop100(int[] inputArray) { int maxValue = Integer.MIN_VALUE; for (int i = 0; i < i...

2018-04-24 14:56:00 171

转载 Hive详解

1. Hive基本概念1.1 Hive简介1.1.1 什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。1.1.2 为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大为什...

2017-12-01 17:56:00 206

转载 sqoop数据迁移

3.1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库3.2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapredu...

2017-12-01 17:33:00 297

转载工作流调度器azkaban

2.1 概述2.1.1为什么需要工作流调度系统l 一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等l 各任务单元之间存在时间先后及前后依赖关系l 为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数据...

2017-12-01 17:30:00 102

转载日志采集框架Flume

前言在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：1. 日志采集框架Flume1.1 Flume介绍1.1.1 概述u Flume是一个分布式、可靠、和高...

2017-12-01 17:26:00 90

转载 MAPREDUCE框架结构及核心运行机制

1.2.1 结构一个完整的mapreduce程序在分布式运行时有三类实例进程：1、MRAppMaster：负责整个程序的过程调度及状态协调2、mapTask：负责map阶段的整个数据处理流程3、ReduceTask：负责reduce阶段的整个数据处理流程1.2.2 MR程序运行流程1.2.2.1 流程示意图1.2.2.2 流程解析1...

2017-10-20 10:01:00 163

转载 Hadoop2.7.3集群搭建

hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意：apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译前期准备就不...

2017-10-18 17:16:00 279

转载 zookeeper集群部署

1.Zookeeper概念简介：Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务）C、Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然说...

2017-10-18 17:06:00 701

转载 Java JVM技术

.1.java监控工具使用.1.1.jconsolejconsole是一种集成了上面所有命令功能的可视化工具，可以分析jvm的内存使用情况和线程等信息。启动jconsole通过JDK/bin目录下的“jconsole.exe”启动Jconsole后，将自动搜索出本机运行的所有虚拟机进程，不需要用户使用jps来查询了，双击其中一个进...

2017-10-18 17:03:00 101

转载 MySQL数据导出与导入

导出导出全库备份到本地的目录mysqldump -u$USER -p$PASSWD -h127.0.0.1 -P3306 --routines --default-character-set=utf8 --lock-all-tables --add-drop-database -A > db.all.sql导出指定库到本地的目录(例如...

2017-04-17 14:47:00 47

转载数据库30条规范

一、基础规范（1）必须使用InnoDB存储引擎解读：支持事务、行级锁、并发性能更好、CPU及内存缓存页优化使得资源利用率更高（2）必须使用UTF8字符集解读：万国码，无需转码，无乱码风险，节省空间（3）数据表、数据字段必须加入中文注释解读：N年后谁tm知道这个r1,r2,r3字段是干嘛的（4）禁止使用存储过程、视图、触发器、Event解读...

2017-04-17 10:37:00 91

转载数据库索引原理

使用索引很简单，只要能写创建表的语句，就肯定能写创建索引的语句，要知道这个世界上是不存在不会创建表的服务器端程序员的。然而，会使用索引是一回事，而深入理解索引原理又能恰到好处使用索引又是另一回事，这完全是两个天差地别的境界（我自己也还没有达到这层境界）。很大一部份程序员对索引的了解仅限于到“加索引能使查询变快”这个概念为止。为什么要给表加上主键？为什么加索引后...

2017-04-14 20:00:00 75

转载 HashMap的实现原理

HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作，并允许使用null值和null键。此类不保证映射的顺序，特别是它不保证该顺序恒久不变。HashMap的数据结构在Java编程语言中，最基本的结构就是两种，一个是数组，另外一个是模拟指针（引用），所有的数据结构都可以用这两个基本结构来构造的，HashMap也不例外。HashMap实际上是一个“链表散列...

2017-04-14 19:15:00 76

转载 Google 和 Baidu 常用的搜索技巧

Google 常用的搜索技巧1. 精确搜索：双引号精确搜索，就是在你要搜索的词上，加上双引号，这个Google搜索引擎，就会完全的匹配你所要的词2. 站内搜索：site这是一个比较常用的搜索方法，site 搜索，就是在站内进行搜索，语法是：site:http://stackoverflow.com/中 site:后面加上你要搜索的网站地址。一般程序...

2017-04-14 19:13:00 147

转载 Arrays工具类十大常用方法

0. 声明数组String[]aArray=newString[5];String[]bArray={"a","b","c","d","e"};String[]cArray=newString[]{"a","b","c","d","e"};1. 打印数组int[]intArray={1,2,3,4...

2017-04-14 19:09:00 104

转载 fastjson将json格式null转化空串

生成JSON代码片段[java]Map<String,Object>jsonMap=newHashMap<String,Object>();jsonMap.put("a",1);jsonMap.put("b","");jsonMap.put("c",null);jsonMap.put...

2017-03-21 15:06:00 147

转载 SolrCloud的介绍

SolrCloud(solr云)是Solr提供的分布式搜索方案。当你需要大规模，容错，分布式索引和检索能力时使用SolrCloud。当索引量很大，搜索请求并发很高时，同样需要使用SolrCloud来满足这些需求。不过当一个系统的索引数据量少的时候是不需要使用SolrCloud的。SolrCloud是基于Solr和Zookeeper的分布式搜索方案。它的主要思想是使...

2017-02-12 10:02:00 120

转载 SOA面向服务的架构理解

Ø单一应用架构·当网站流量很小时，只需一个应用，将所有功能都部署在一起，以减少部署节点和成本。Ø垂直应用架构当访问量逐渐增大，单一应用增加机器带来的加速度越来越小，将应用拆成互不相干的几个应用，以提升效率。Ø分布式服务架构·当垂直应用越来越多，应用之间交互不可避免，将核心业务抽取出来，作为独立的服务，逐渐形成稳定的服务...

2017-02-12 08:58:00 144

转载 SpringMVC中重定向底层原理

只要将数据放入model中, 也能取到值，原因是model临时放入session域中，当从定向到另一个url时，底层把数据拼接在url地址后面(重定向一定是get请求方式)，同时将session域中的这条数据清除，重定向到conttoller时，取值方式只有request.getParameter("id"); request.getAttribute("id")和req...

2017-02-11 16:02:00 139

转载 springmvc框架原理

1、用户发送请求至前端控制器DispatcherServlet2、 DispatcherServlet收到请求调用HandlerMapping处理器映射器。3、处理器映射器根据请求url找到具体的处理器，生成处理器对象及处理器拦截器(如果有则生成)一并返回给DispatcherServlet。4、 DispatcherServlet通过HandlerAdapt...

2017-02-11 15:31:00 182

转载页面异步发送json数据封装controller方法形参 pojo中，使用@requestBody和不使用它页面的异步方式不同之处...

方式一：使用@requestBody方式二：直接封装到pojo的方式转载于:https://www.cnblogs.com/jiang-it/p/6389228.html

2017-02-11 15:28:00 139