自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hive入门学习

一、HIVE概念。1.Hadoop一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的类SQL查询功能,可以将HQL语句转换为MapReduce任务进行运行。2.Hive适用于大数据集的批处理作业,例如:网络日志分析。不适用于:不能在大规模数据集上实现低延迟快速的查询。例如:Hive在几百MB的数据集上执行查询一般有分钟级的延迟。不支持联机事务处理。(OLTP)3.Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门

2022-04-06 14:56:51 1733

原创 数仓类项目走过的坑

1.SQL处理中NULL值容易导致各种问题,应考虑ODS层以上数据表字段的空值处理。比如维度属性默认设置为-1,度量字段默认为0.若觉得范围太大,最起码日常分析的维度属性、度量值要考虑空值的处理。2.不要太相信上游系统的数据质量,各种你想象不到的数据质量问题。应在开发阶段或之前,进行生产数据的探查,了解各字段的数据分布情况、各属性枚举值、空值情况。做对应处理。异常值的处理方案需要同步业务。3.ODS数据源层数据保持与上游一致,便于后续粗粒度数据的核对、数据溯源、以及应对后续各种新需求。识别

2021-06-24 18:24:26 1600 5

原创 阿里巴巴大数据实践所得二

一、数据质量完整性:指数据的记录和信息是否完整,是否存在缺失的情况。主要包括记录的缺失和字段的缺失。准确性:指数据中信息、数据是否准确,是否存在异常或错误的信息。一致性:数据的一致性。及时性:数据及时呈现、产出。数据具有时效性。结合项目,建议在数据的加工处理过程中,增加脏数据处理的步骤,这里需要依赖于业务数据的熟悉,预知哪部分数据容易出问题。质量管控方式:1.上游数据机构、规则逻辑发生变化,要及时通知下游2.数据生成加工各环节卡点校验,包括SQL扫描工具、代码测试、代码人工审核、生产数据

2021-06-17 14:47:06 176

原创 阿里巴巴大数据实践所得

一、为什么需要建模数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。合理的数据模型:性能:快速查询所需要的数据,减少数据的吞吐。成本:极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。效率:极大地改善用户使用数据的体验,提高使用数据的效率。质量:良改善数据统计口径的不一致性,减少数据计算错误的可能性。二、模型设计操作数据层(ODS)、明细数据层(DWD)、汇总数据层(DWS)、维度表(DIM)、应用数据层(ADS)操作

2021-06-04 15:40:50 332

原创 MyCat入门

一、mycat介绍目前最流行的分布式数据库中间插件,能满足数据库大量存储,提高查询性能。二、Mycat架构前端用户可以把mycat看做一个数据库代理,用mysql客户端工具(Navicat)和命令访问,而后端支持mysql,sqlserver,Oracle等主流数据库,用mysql native协议和多个mysql服务器通信,也可用JDBC协议和大多数主流数据库服务器通信,其核心功能就是分库分表,即将一个大表水平切分成N个小表,真正的存储在后端Mysql服务器中或其他数据库中。三、Mycat

2021-05-27 18:33:16 422

原创 binlog实时同步

一、binlog实时同步1.binlog介绍是一个二进制格式的文件,用于记录用户对数据库更新的SQL语句信息,例如更改数据库表和更改内容的SQL语句都会就到binlog里,但对库表等内容的查询不会记录。默认情况下,binlog日志是二进制格式的,不能使用文本查看工具的命令查看(例如cat、vi等),而使用mysqlbinlog解析查看。2.binlog的作用当有数据写入数据库时,会同时把更新的sql语句写入对应的binlog文件里。使用mysqldump备份时,只是对一段时间的数据进行全

2021-05-27 18:32:20 6019

原创 Sqoop入门学习

1.sqoopsqoop是一个用于在Hadoop和关系型数据库服务器之间传输数据的工具。它用于从关系型数据库(Mysql\Oracle等)导出数据到Hadoop HDFS,并从Hadoop文件系统导出到关系型数据库。它由Apache软件基金会提供。为什么使用sqoop?快速实现Hadoop(HDFS/hive/hbase)与传统数据库(mysql\Oracle)之间的数据传递Sqoop提供许多数据传输方式。(支持分布式并行)2.工作流程RDBMS->import(Sqoop Too

2021-05-27 18:28:02 252

原创 Flume入门学习

1.Flume是一个可收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储(HBase/Hadoop)的工具/服务。Flume具有高可用,分布式,配置工具.Cloud\facbook\WebServers\Twitter(Log/Event data) ->Flume ->HDFS/HBase2.Flume AgentFlume内部有一个或者多个Agent,然而对于每一个Agent来说,它就是一个独立的守护进程(JVM),它从客户端接收数据,然后迅速将获取

2021-05-27 18:27:00 136

原创 GP\HBase\Redis\ES\分库分表比较

GreenPlum应用场景:Greenplum适用TB级别数据仓库、集市、ODS、交互式分析数据平台等系统。 不适用于极短的时间处理大量的并发小任务(OLTP)。 优点:Master-Slave架构、ShareNothing体系、采用Postgresql作为底层引擎 缺点: 1.扩展性差:数据采用Hash分布在各个节点,计算节点和存储紧密耦合,在增加节点后,需要对数据做重分布才能保证数据与节点的紧耦合(重新hash数据),进而保证系统的性能。相反,Hadoop的节点和数据是没有耦合关系的。 2.M

2021-05-25 18:51:27 1276

原创 Java开发总结整理一

一、Integer等包装类要使用equals进行对比,否则会有问题。public class HelloWorld { public static void main(String[] args) { Integer a=150; Integer b=150; Integer c = new Integer(20); System.out.println(a==b);//false System.out.println...

2021-05-14 13:50:13 131

原创 Oracle 收集分区统计信息

--删除表DROP TABLE TEST3;--1.创建按日分区测试表SQL> CREATE TABLE TEST3(ID INT, PARDATE DATE) 2 PARTITION BY RANGE (PARDATE) INTERVAL (NUMTODSINTERVAL (1,'DAY')) 3 ( 4 PARTITION P_20180101 VALUES LESS THAN (TO_DATE('2018-01-02', 'YYYY-MM-DD')) 5 );

2021-03-26 11:42:49 1435 1

原创 Mysql 入门学习

一、连接MySQL进入目录 mysql bin格式: mysql -h 主机地址 -u 用户名 -p 用户密码说明:-h : 指定客户端所要登录的MySQL主机名, 登录本机(localhost 或 127.0.0.1)该参数可以省略;-u : 登录的用户名;-p : 告诉服务器将会使用一个密码来登录, 如果所要登录的用户名密码为空, 可以忽略此选项。如果我们要登录本机的 MySQL 数据库,只需要输入以下命令即可:mysql -u root -p若密码存在, 输入密码登录, 不存在则直接

2021-03-11 16:31:13 77

原创 kafka入门

一、什么是kafka?Kafka是一种分布式,基于发布/订阅的消息系统。 高吞吐量:每秒可处理几十万条记录 分布式:支持热扩展 持久化:消息持久化到磁盘容错:副本容错 高并发:客户端同时高并发读写使用背景: 峰值处理能力统一接口服务解耦消息系统介绍: 一个消息系统负责将数据从一个应用传递到另外一个应用,应用只需关注于数据,无需关注数据在两个或多个应用间是如何传递的。分布式消息传递基于可靠的消息队列,在客户端应用和消息系统之间异步传递消息。 有两种主...

2021-01-29 16:57:11 230 2

原创 Spark入门简介

一、Spark简介Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点:1.运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍;2.容易使用:Spark支持使用Scala、Java、Python和R语言进行编程,简

2021-01-13 19:14:00 814

原创 HBase入门

一、概览HBase是一个分布式的,面向列的开源数据库。它更像是分布式存储而不是分布式数据库,它缺少很多RDBMS系统的特性,比如列类型,辅助索引,触发器,和高级查询语言等。那Hbase有什么特性呢?如下:强读写一致,但是不是“最终一致性”的数据存储,这使得它非常适合高速的计算聚合。.自动分片,通过Region分散在集群中,当行数增长的时候,Region也会自动的切分和再分配自动的故障转移。Hadoop/HDFS集成,和HDFS开箱即用,不用太麻烦的衔接丰富的“简洁,高效”API,Thrift

2021-01-08 14:40:01 306

原创 IDEA配置

IDEA配置:1.从SVN 检出项目之后,并用 IDEA 首次打开项目,IDEA 会弹出如下选择框:Do you want to schedule the following file for addition to Subversion? xxx.iml实际上,XXX.iml文件是 IDEA 自动为我们(首次)打开的项目生成的配置文件,例如我们的项目名为accounting-hessian,那么 IDEA 就自动为我们的项目生产了一个名为accounting-hessian.iml的配置文件。

2020-11-05 18:13:19 2205

原创 Quartz Misfire

Quartz Misfire一、Misfire的原因1、当job达到触发时间时,所有线程都被其他job占用,没有可用线程。2、在job需要触发的时间点,scheduler停止了(可能是意外停止的)。3、job使用了@DisallowConcurrentExecution注解,job不能并发执行,当达到下一个job执行点的时候,上一个任务还没有完成。4、job指定了过去的开始执行时间,例如当前时间是8点00分00秒,指定开始时间为7点00分00秒二、MisFire的前置条件misfire产生需要

2020-11-04 20:22:52 2283

原创 Java 单元测试入门

Java 单元测试单元测试是编写测试代码,用以检测特定的、明确的、细颗粒的功能!单元测试规则:1、每一个测试方法上使用@Test进行修饰2、每一个测试方法必须使用public void 进行修饰3、每一个测试方法不能携带参数4、测试代码和源代码在两个不同的项目路径下5、测试类的包应该和被测试类保持一致6、测试单元中的每个方法必须可以独立测试以上的6条规则,是在使用单元测试的必须项,当然junit也建议我们在每一个测试方法名加上test前缀,表明这是一个测试方法。计算类public c

2020-11-02 16:36:46 332

原创 Spring事务传播机制

事务一、事务特性原子性(Atomicity):事务是一个原子操作,由一系列动作组成。事务的原子性确保动作要么全部完成,要么完全不起作用。一致性(Consistency):一旦事务完成(不管成功还是失败),系统必须确保它所建模的业务处于一致的状态,而不会是部分完成部分失败。在现实中的数据不应该被破坏。隔离性(Isolation):可能有许多事务会同时处理相同的数据,因此每个事务都应该与其他事务隔离开来,防止数据损坏。持久性(Durability):一旦事务完成,无论发生什么系统错误,它的结果都不应该

2020-10-30 15:33:03 4307 1

原创 ORACLE ROWNUM分页总结

首先ROWNUM只适用于小于或小于等于,如果进行等于判断,那么只能等于1,不能进行大于的比较。ROWNUM是oracle系统顺序分配为从查询返回的行的编号,返回的第一行分配的是1,第二行是2,依此类推。ROWNUM总是从1开始,不管当前的记录是否满足查询结果,ROWNUM返回的值都是1,如果这条记录的值最终满足所有的条件,那么ROWNUM会递加,下一条记录的ROWNUM会返回2,否则下

2017-12-02 12:36:12 351

jdom-2.0.6.jar

jdom-2.0.6.jar 资源描述可以把电子书的概述、源代码的说明、文档的片段填在这里,描述详细会获得我们的推荐,更容易被他人下载!描述大于20字不是问题吧!

2015-04-19

struts-core-2.1.6

struts2.1.6 jar包

2015-04-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除