- 博客(24)
- 收藏
- 关注
转载 大数据架构(PB级)
1.随着互联网快速发展,数据量的快速膨胀,我们日增3000多亿数据量,因此需要针对PB级存储、几百TB的增量数据处理架构设计2.系统逻辑划分总图:暂不便透露3.系统架构图:4.大数据计算引擎我们是采用Apache Flink流式计算框架,并对其进行了一些优化,目前在生产环境,已经基本稳定运行! 欢迎大家评论!!!转载于:https://www...
2019-08-15 11:38:00 855
转载 flink Window的Timestamps/Watermarks和allowedLateness的区别
Watermartks是通过additional的时间戳来控制窗口激活的时间,allowedLateness来控制窗口的销毁时间。 注: 因为此特性包括官方文档在1.3~1.5版本均未做改变,所以此处使用1.5版的文档 在EventTime的情况下, 1. 一条记录的事件时间来控制此条记录属于哪一个窗口,Watermarks来控制这个...
2018-07-08 19:07:00 289
转载 flink统计根据账号每30秒 金额的平均值
package com.zetyun.streaming.flink;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.tuple.Tuple2;import org.a...
2018-04-24 15:20:00 1033
转载 位图排序:从1亿个数字中取出最大的100个
package com.zetyun.test;import java.util.Random;public class Top100 { public static int[] getTop100(int[] inputArray) { int maxValue = Integer.MIN_VALUE; for (int i = 0; i < i...
2018-04-24 14:56:00 171
转载 Hive详解
1. Hive基本概念1.1 Hive简介1.1.1 什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.1.2 为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大为什...
2017-12-01 17:56:00 206
转载 sqoop数据迁移
3.1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库3.2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapredu...
2017-12-01 17:33:00 297
转载 工作流调度器azkaban
2.1 概述2.1.1为什么需要工作流调度系统l 一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等l 各任务单元之间存在时间先后及前后依赖关系l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据...
2017-12-01 17:30:00 102
转载 日志采集框架Flume
前言在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:1. 日志采集框架Flume1.1 Flume介绍1.1.1 概述u Flume是一个分布式、可靠、和高...
2017-12-01 17:26:00 90
转载 MAPREDUCE框架结构及核心运行机制
1.2.1 结构一个完整的mapreduce程序在分布式运行时有三类实例进程:1、MRAppMaster:负责整个程序的过程调度及状态协调2、mapTask:负责map阶段的整个数据处理流程3、ReduceTask:负责reduce阶段的整个数据处理流程1.2.2 MR程序运行流程1.2.2.1 流程示意图1.2.2.2 流程解析1...
2017-10-20 10:01:00 163
转载 Hadoop2.7.3集群搭建
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译前期准备就不...
2017-10-18 17:16:00 279
转载 zookeeper集群部署
1.Zookeeper概念简介:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)C、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然说...
2017-10-18 17:06:00 701
转载 Java JVM技术
.1.java监控工具使用.1.1.jconsolejconsole是一种集成了上面所有命令功能的可视化工具,可以分析jvm的内存使用情况和线程等信息。启动jconsole通过JDK/bin目录下的“jconsole.exe”启动Jconsole后,将自动搜索出本机运行的所有虚拟机进程,不需要用户使用jps来查询了,双击其中一个进...
2017-10-18 17:03:00 101
转载 MySQL数据导出与导入
导出导出全库备份到本地的目录mysqldump -u$USER -p$PASSWD -h127.0.0.1 -P3306 --routines --default-character-set=utf8 --lock-all-tables --add-drop-database -A > db.all.sql导出指定库到本地的目录(例如...
2017-04-17 14:47:00 47
转载 数据库30条规范
一、基础规范(1)必须使用InnoDB存储引擎解读:支持事务、行级锁、并发性能更好、CPU及内存缓存页优化使得资源利用率更高(2)必须使用UTF8字符集解读:万国码,无需转码,无乱码风险,节省空间(3)数据表、数据字段必须加入中文注释解读:N年后谁tm知道这个r1,r2,r3字段是干嘛的(4)禁止使用存储过程、视图、触发器、Event解读...
2017-04-17 10:37:00 91
转载 数据库索引原理
使用索引很简单,只要能写创建表的语句,就肯定能写创建索引的语句,要知道这个世界上是不存在不会创建表的服务器端程序员的。然而, 会使用索引是一回事, 而深入理解索引原理又能恰到好处使用索引又是另一回事,这完全是两个天差地别的境界(我自己也还没有达到这层境界)。很大一部份程序员对索引的了解仅限于到“加索引能使查询变快”这个概念为止。为什么要给表加上主键?为什么加索引后...
2017-04-14 20:00:00 75
转载 HashMap的实现原理
HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作,并允许使用null值和null键。此类不保证映射的顺序,特别是它不保证该顺序恒久不变。HashMap的数据结构在Java编程语言中,最基本的结构就是两种,一个是数组,另外一个是模拟指针(引用),所有的数据结构都可以用这两个基本结构来构造的,HashMap也不例外。HashMap实际上是一个“链表散列...
2017-04-14 19:15:00 76
转载 Google 和 Baidu 常用的搜索技巧
Google 常用的搜索技巧1. 精确搜索:双引号精确搜索,就是在你要搜索的词上,加上双引号,这个Google搜索引擎,就会完全的匹配你所要的词2. 站内搜索:site这是一个比较常用的搜索方法,site 搜索,就是在站内进行搜索,语法是:site:http://stackoverflow.com/中 site:后面加上你要搜索的网站地址。一般程序...
2017-04-14 19:13:00 147
转载 Arrays工具类十大常用方法
0. 声明数组String[]aArray=newString[5];String[]bArray={"a","b","c","d","e"};String[]cArray=newString[]{"a","b","c","d","e"};1. 打印数组int[]intArray={1,2,3,4...
2017-04-14 19:09:00 104
转载 fastjson将json格式null转化空串
生成JSON代码片段[java]Map<String,Object>jsonMap=newHashMap<String,Object>();jsonMap.put("a",1);jsonMap.put("b","");jsonMap.put("c",null);jsonMap.put...
2017-03-21 15:06:00 147
转载 SolrCloud的介绍
SolrCloud(solr云)是Solr提供的分布式搜索方案。当你需要大规模,容错,分布式索引和检索能力时使用SolrCloud。当索引量很大,搜索请求并发很高时,同样需要使用SolrCloud来满足这些需求。不过当一个系统的索引数据量少的时候是不需要使用SolrCloud的。SolrCloud是基于Solr和Zookeeper的分布式搜索方案。它的主要思想是使...
2017-02-12 10:02:00 120
转载 SOA面向服务的架构理解
Ø单一应用架构·当网站流量很小时,只需一个应用,将所有功能都部署在一起,以减少部署节点和成本。Ø垂直应用架构当访问量逐渐增大,单一应用增加机器带来的加速度越来越小,将应用拆成互不相干的几个应用,以提升效率。Ø分布式服务架构·当垂直应用越来越多,应用之间交互不可避免,将核心业务抽取出来,作为独立的服务,逐渐形成稳定的服务...
2017-02-12 08:58:00 144
转载 SpringMVC中重定向底层原理
只要将数据放入model中, 也能取到值,原因是model临时放入session域中,当从定向到另一个url时,底层把数据拼接在url地址后面(重定向一定是get请求方式),同时将session域中的这条数据清除,重定向到conttoller时,取值方式只有request.getParameter("id"); request.getAttribute("id")和req...
2017-02-11 16:02:00 139
转载 springmvc框架原理
1、 用户发送请求至前端控制器DispatcherServlet2、 DispatcherServlet收到请求调用HandlerMapping处理器映射器。3、 处理器映射器根据请求url找到具体的处理器,生成处理器对象及处理器拦截器(如果有则生成)一并返回给DispatcherServlet。4、 DispatcherServlet通过HandlerAdapt...
2017-02-11 15:31:00 182
转载 页面异步发送json数据封装controller方法形参 pojo中,使用@requestBody和不使用它页面的异步方式不同之处...
方式一: 使用@requestBody方式二 : 直接封装到pojo的方式转载于:https://www.cnblogs.com/jiang-it/p/6389228.html
2017-02-11 15:28:00 139
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人