自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(527)
  • 收藏
  • 关注

转载 Semi-join在Greenplum中的三种实现方式

Semi-join(半连接)是用来处理外表的记录是否在内表中存在与其匹配的行,而无需考虑匹配行的条数,半连接的返回结果集仅使用外表数据集,使用场景如:in、exists、>|<|= any等操作。本文将为大家详细介绍Semi-join在Greenplum中的三种实现方式。Semi-join是Greenplum的一种内部算子,用户无法直接在sql语句中使用,semi-join算子可以用在nestloop、hashjoin以及mergejoin中。与普...

2021-11-06 02:26:32 996

转载 从落地效果看,转转选择TDengine的三个理由

在转转的业务中,我们使用了Nginx作为我们的反向代理,为保证代理层可用性,需要对Nginx进行实时状态监控。在服务器的基础监控的选择上,我们将OpenFalcon逐步替换为夜莺,对Nginx 的reqstat监控最初也使用了这两种。但是这两大监控都有一个共同缺点,即在展示时有条数限制,导致域名数量和机器数量相乘后数据量增多的情况下,无法满足需求。为了解决这个问题,我们考虑对现有监控模块进行升级改造,重新进行数据库选型,在预研和分析阶段,根据当前的业务需求我们从开源的数据库中选择了两款时序数据库,分

2021-11-05 18:39:32 2068

转载 深入剖析Redis客户端Jedis的特性和原理

一、开篇Redis作为目前通用的缓存选型,因其高性能而倍受欢迎。Redis的2.x版本仅支持单机模式,从3.0版本开始引入集群模式。Redis的Java生态的客户端当中包含Jedis、Redisson、Lettuce,不同的客户端具备不同的能力是使用方式,本文主要分析Jedis客户端。Jedis客户端同时支持单机模式、分片模式、集群模式的访问模式,通过构建Jedis类对象实现单机模式下的数据访问,通过构建ShardedJedis类对象实现分片模式的数据访问,通过构建JedisCluster类对象

2021-11-05 18:38:41 1125

转载 MRS HetuEgine的数据虚拟化实践

数据虚拟化是指一种数据管理方式,允许应用在不关心数据源的数据格式及物理存储位置的情况下以一种统一的方式获取和使用整个组织中所有的数据。与数据虚拟化方式对应的一种方式是传统的ETL方式,数据经过抽取、转换和装载的过程,将不同系统的数据收集到一个统一的物理系统中,并经过标准化处理进行格式的统一。数据虚拟化的特点是不改变数据存储位置,实时访问。根据Gartner发布的数据管理技术成熟度曲线,数据虚拟化技术已经进入了生产成熟期,相关理论和技术也已经成熟,如果企业正在受困于各系统或者各部门数据无法高效打通的问题,可以

2021-11-05 18:37:14 261

转载 ReplacingMergeTree:实现Clickhouse数据更新

Clickhouse作为一个OLAP数据库,它对事务的支持非常有限。Clickhouse提供了MUTATION操作(通过ALTER TABLE语句)来实现数据的更新、删除,但这是一种“较重”的操作,它与标准SQL语法中的UPDATE、DELETE不同,是异步执行的,对于批量数据不频繁的更新或删除比较有用。除了MUTATION操作,Clickhouse还可以通过CollapsingMergeTree、VersionedCollapsingMergeTree、ReplacingMergeTree结合具体业务数据

2021-11-05 18:36:31 1830

转载 顶会VLDB‘22论文解读:CAE-ENSEMBLE算法

导读本文(Unsupervised Time Series Outlier Detection with Diversity-Driven Convolutional Ensembles)是由华为云数据库创新Lab联合丹麦Aalborg University与电子科技大学发表在顶会VLDB’22的文章。该文章针对时间序列离群点检测问题,提出了基于CNN-AutoEncoder和集成学习的CAE-ENSEMBLE深度神经网络算法,并通过大量的实验证明CAE-ENSEMBLE算法能有效提高时间序列离群点检测

2021-11-05 18:35:26 337

转载 一文了解 PG PITR 即时恢复

在数据库系统中,数据是一切的基础,数据的安全更是重中之重。但可能因为各种原因导致数据丢失或损坏,因此数据的备份和恢复便显得尤为重要。PostgreSQL 是一个强大的开源对象关系数据库系统,经过 30 多年的积极开发,在可靠性、功能稳健性和性能方面赢得了良好的声誉。Point-In-Time Recovery(简称 PITR) 是 PostgreSQL 的基于时间点的数据恢复技术,在开启 WAL 日志归档及基础备份后,可以即时恢复用户误操作丢失的数据,为您的数据库加上一重"保险"。本文将演示 Pos

2021-11-05 18:34:38 794

转载 各种存储性能瓶颈场景的分析与优化手段

【摘要】本文结合实践剖析存储系统的架构及运行原理,深入分析各种存储性能瓶颈场景,并提出相应的性能优化手段,希望对同行有一定的借鉴和参考价值。【作者】陈萍春,现就职于保险行业,拥有多年的系统、存储以及数据备份等运维工作经验。前言可靠性、安全性和性能是 IT 系统最重要的三个评价维度。对于 IT 系统来说,可靠性和安全性是基础,系统故障或数据泄露等造成的破坏性是显而易见的;而性能则是核心能力,代表着 IT 系统的服务水平,性能瓶颈会制约企业业务的发展,严重影响用户体验。存储系统是企业 I

2021-11-05 18:26:16 749

转载 使用 Gitea 快速搭建私有 Git 版本控制服务

1. 前言分布式版本控制工具 Git 已经是现代软件源代码版本控制首选方案之一。公有Git服务提供商 国外知名如GitHub国内网络延迟高,Gitlab涉嫌对中国的歧视不推荐。国内有Gitee、Coding生态还不错。但是一般公司的源代码除非开源项目是不会放在公有Git服务上的。所以我们就需要一款容易安装,上手简单,而且硬件要求低的自托管Git服务程序。当然如果能免费就更好了。今天推荐一款符合上述要求的工具————Gitea。2. GiteaGitea是一个开源社区驱动...

2021-11-05 15:47:43 400

转载 Dockerfile 基本命令详解

1. 前言Dockerfile是用来构建自定义Docker镜像的文本文档。我们通过docker build命令用于从Dockerfile文件构建镜像。如果你要构建自定义镜像,Dockerfile是你必须学会的技能之一。2. Dockerfile 的基本结构Dockerfile一般分为:基础镜像、镜像元信息、镜像操作指令和容器启动时执行指令,#为Dockerfile中的注释。3. Dockerfile 文件说明Docker从上到下的顺序运行Dockerfile的指令...

2021-11-05 15:46:51 1014

转载 移动开发的选择 关系型 or NoSQL?

如今,移动应用开发领域是NoSQL数据库新的重要增长点之一。最近几年,随着智能移动设备的不断普及,移动应用(Apps)正在成为人们生活越来越不可或缺的一个重要组成部分,因此移动应用的开发也实现了爆发式的增长,越来越多的开发者正在投入到移动应用的开发当中。也正因为移动应用的普及,用户对于这些应用的要求也在不断的提高,为了让开发者能更加快速的响应用户需求、开发移动应用,移动应用的开发也需要变得更高效更简洁才能适应这些需求。而使用NoSQL数据库,是让开发变得高效的重要一环。关系型数据库的痛点

2021-11-05 15:45:47 176

转载 Spark官方Blog:SequoiaDB与Spark深度整合

近日,Spark官方博客发布了SequoiaDB深度整合Spark的消息,同时SequoiaDB也获得了Spark的全球合作伙伴和Spark提供商商的认证 ,以下就是这篇消息的原文这是一篇来自我们的技术合作伙伴,SequoiaDB巨杉数据库的博客。作者是SequoiaDB的联合创始人和CTO王涛先生,SequoiaDB是一款JSON文档型的事务型数据库。王涛带着技术上非凡的远见,带领SequoiaDB的团队取得了许多技术上的突破和成功。为什么选择SparkSequoiaDB是一款No

2021-11-04 14:32:40 139

转载 从大数据地形图看大数据发展

在新兴事物收到追捧的科技创新行业中,“大数据”目前正在走向理性与成熟。随着2006年Hadoop的成立, 在2011年到2014年间人们对“大数据”这一概念的兴趣达到了狂热的地步,凡是必提“大数据”。而进入2015年,随着大数据真正的开始广泛落地应用在各个领域,大数据这个词似乎变得非常常见,也开始为大家所接受。同时,2015年以来“大数据世界”里的“热血青年”们转而痴迷于VR、AI这些“更新”的领域,大数据行业也开始趋于冷静,走向成熟。硅谷著名投资机构Firstmark近期发布了2021年的大数据行

2021-11-04 14:31:50 478

转载 近线数据平台,激活金融业务创新

近年来,大数据概念早已在国内银行业中大规模普及,越来越多的企业开始尝试借助大数据技术的力量,来推动企业内部与外部的创新。但是,由于大数据与传统技术的理念与技术差异,导致很多银行和企业在实施大数据战略的过程当中,遇到各种各样的问题。因此,如何使用正确的方法和步骤运用大数据技术,是众多金融服务机构在试水大数据技术时首先遇到的难题。近线数据近线数据服务平台,是大数据技术在银行业中的一类平台性应用。其核心的理念在于,以大数据技术为基础,将全量数据从离线与近线系统中统一复制到近线平台,使得该平台保

2021-11-04 14:30:23 501

转载 云化架构下,数据库架构的演进

如今,大型企业如金融企业和银行等,在下一代的微服务架构转型要求下,需要基础软件和数据平台能够实现原生的云化,以满足微服务架构的需求。微服务,是一种面向服务的,有特定边界的松散耦合的架构。主要特点包括,每一个微服务是一个独立的自治系统,可以不依赖外部组件独立运行;对应用只暴露接口,用户可以灵活的调整过每个微服务的使用;业务粒度足够小。在企业架构“云化”的过程中,数据库的云化是最为重要也是难度较大的一个部分。数据库云平台(dbPaaS)是一类支持弹性扩张、多租户、自我管理、并能够运行在云服务

2021-11-04 14:29:21 2997

转载 金融级数据库多活架构实践

今年以来,公有云事故频发,大有“黑天鹅”不断爆发之势头。近期,北京一初创公司清博数控表示,在使用国内某厂商云服务器8个月后,放在云服务器上包括备份的数据全部丢失,导致公司几年来的平台数据全部丢失,造成“近千万元损失”。此后,该云平台对此回应称,向该公司表达歉意,愿意赔偿该公司在平台产生的实际消费共计3569元,本着帮助用户迅速恢复业务的目的,承诺为该公司提供13.29万元现金或云资源的额外补偿,赔偿加补偿金额总计13.64万元达到其在平台中用云金额的37倍。此外,在半年时间内,多个平台也曾出现数据安

2021-11-04 14:28:20 543

转载 分布式数据库驱动银行前台业务智慧化转型

随着银行业务的拓展以及网点业务的需求量加大,在新一轮技术浪潮驱动下,各大商业银行也在纷纷推进智能网点的建设。其中,商业银行的柜面无纸化就是最先推进的业务之一。包括广发银行、民生银行在内的大型商业银行,已经于近几年陆续上线柜面无纸化业务,并开始在全国网点进行推广使用。今后,随着柜面无纸化、“一站式”综合店员、人工智能等系统的陆续应用,各大商业银行也将全面实现网点智能化转型建设。大型商业银行,平均有超过 300~400 个业务系统,每一个业务系统既有完整技术栈,又和不同的业务之间存在许多的相互依.

2021-11-04 14:27:34 201

转载 业务架构微服务化下的数据库进化论

未来是私有云和微服务应用的时代,那么作为分布式数据库,就不仅仅简单的将其定位成过去某一个数据库的替代。分布式数据库的核心价值在于,能够从数据库的层面以服务资源池的形式,向上层被从烟囱式架构向微服务架构拆散的成百上千个小服务提供数据库访问能力的平台。在这个定位下,数据库资源池在保证与传统数据库100%兼容的基础上,必须满足分布式弹性扩张,当资源池里面空间和计算能力不足时,需要通过动态增加计算存储节点的方式进行扩容。新一代分布式数据库,其架构与功能特性需要保证在与传统数据库全兼容的基础上,拥抱微服务与云

2021-11-04 14:26:42 239

转载 一图解千愁,jvm内存从来没有这么简单过

看到这张图的同学,千万不要到处分享。我们仅限于小范围讨论,因为这张图威力很大,是我花了10年时间才画出来的!了解了这张图,会让你对JVM内存的划分有更深入的理解,而不仅限于什么虚拟机栈、程序计数器等比较浅显的认知。那么这张图有什么用呢?在进行内存排查的时候,我们需要了解到底是哪一个部分除了问题。如果你找不对地方,肯定切入就比较困难,这会耗费你大量的精力。一台4GB的机器,一般使用Xmx分配给JVM的,肯定不能太多。比如3.5GB之类的。这就太贪婪了,很容易造成JVM异常死亡。这是为什么呢?这

2021-11-04 14:25:24 157

转载 ElasticSearch安装详解及采坑

ElasticSearch是一个分布式的,高性能,高可用的,可伸缩的搜索和分析系统(1)可以作为大型分布式集群(数百台服务器)技术,处理PB级的数据,服务大公司;也可以运行在单机上服务于小公司(2)Elasticsearch不是什么新技术,主要是将全文检索、数据分析以及分布式技术,合并在了一起,才形成了独一无二的ES:lucene(全文检索),商用的数据分析软件,分布式数据库(3)对用户而言,是开箱即用的,非常简单,作为中小型应用,直接3分钟部署一下ES,就可以作为生产环境的系统来使用了,此时的场景是

2021-11-04 14:24:35 172

转载 只有程序员才能读懂的西游记

这是一个有关计算机网络协议的故事一、我佛造经传极乐 话说我佛如来为度化天下苍生,有三藏真经,可劝人为善。就如图中所示,真经所藏之处,在于云端。佛祖所管辖之下,有四个区域Region,称为四大部洲, 一是东胜神洲,二是南赡部洲,三是西牛贺洲,四是北俱卢洲。我佛所在西牛贺洲,是主站点。 在每个区域Region,为保证真经永固,设置多个藏经楼,称为可用区(Available Zone)。每个藏经楼里面是一排一排的...

2021-11-04 14:23:03 476

转载 Spring Boot项目启动后如何自动执行逻辑

1. 前言不知道你有没有接到这种需求,项目启动后立马执行一些逻辑。比如简单的缓存预热,或者上线后的广播之类等等。如果你使用Spring Boot框架的话就可以借助其提供的接口CommandLineRunner和ApplicationRunner来实现。2. CommandLineRunnerorg.springframework.boot.CommandLineRunner是Spring Boot提供的一个接口,当你实现该接口并将之注入Spring IoC容器后,Spring Boot应...

2021-11-03 14:44:51 364

转载 前22年的Loser,后4年和自己赛跑的人 | 最惨前端面经

前东家部门是做旅游的,在这次疫情打击下,基本玩完。于是我半休半远程三个月后,在 4 月底领了裁员便当。至今,差不多找了两个月的工作。本篇不是标准的面经,想从中获取大厂跳槽经验的可以歇一歇。更多的是想讲一下绝大多数如你如我,学历渣技术差,没大厂经验的前端如何走。1.Offer情况个人比较懒,一周可能就面 2 ~ 3 家,只约下午。部分星期没有面试邀约。由于学历+公司,两招聘软件都被我用成“Boss直拒”和“拉钩上吊”粗略算了下,面了约 12 家大中小型公司,仅 4 家Offe.

2021-11-03 14:43:32 470

转载 是什么尤大选择放弃Webpack?——vite 原理解析

前些天尤大在Vue 3.0 beta直播中提到了一个vite的工具,其描述是:针对Vue单页面组件的无打包开发服务器,可以直接在浏览器运行请求的vue文件,对其原理比较感兴趣,因此体验并写下了本文,主要包括vite实现原理分析和一些思考。预备知识vite重度依赖module sciprt的特性,因此需要提前做下功课,参考:JavaScript modules 模块 - MDN。module sciprt允许在浏览器中直接运行原生支持模块<script type="module"&gt

2021-11-03 14:42:24 221

转载 相见恨晚的 Git 命令动画演示,一看就懂

虽然 Git 是一个强大的工具,但是我觉得大部分人都会同意我说的:它也可以是一个……噩梦!我一直觉得,使用 Git 的时候把操作过程在脑海里视觉化会非常有用:当我执行某个命令的时候,分支之间是如何交互的?又是如何影响提交历史的?当我在master分支执行hard reset、force push到origin、在.git文件夹执行rimraf的时候,为什么我的同事都哭了?我认为创建一些最常见、最实用的命令的可视化示例是最佳使用指南!接下来介绍的这些命令,很多都有可选参数,用于改变命令的行为。文中的示例.

2021-11-03 14:40:01 697

转载 实时数据订阅与分发系统概述

实时数据订阅与分发系统可以将业务数据源变更实时分发分发到消息总线上,并维护消息的统一格式,提供通用的客户端框架供消息生产者与下游业务接入。一般能用于以下场景: 索引构建:MySQL到ES 缓存管理:MySQL到Redis或本地cache 数据库镜像 实时备份 价格变化等重要业务信息订阅 实时数据订阅与分发系统一般都有如下几个核心模块构成:Change Data Capture(变更数据抓取,CDC):负责实时抓取业务数据源的变更消息;消息中

2021-11-03 14:39:14 827

转载 使用phoenix踩的坑与设计思考

本文主要介绍在压测HBase的二级索引phoenix时踩的一个坑,使用时需要特别注意,而且背后的原因也很有意思,可以看出HBase和Phoenix对元数据设计上的差异。1.问题介绍在做phoenix压测时发现一个奇怪的现象。压测请求分布非常均匀,但是有一台机器的流量、负载都明显高于其他机器。如下图所示。请求均匀资源利用率不均匀,单个节点明显偏高。2.排查思路看到这个问题的第一反应,是去看下表分布是否均匀。 hbase表分布是否均匀 索引表分布是

2021-11-03 14:38:28 220

转载 从零单排HBase 12 HBase二级索引Phoenix使用与实践

Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs对HBase数据进行增删改查,构建二级索引。当然,开源产品嘛,自然需要注意“避坑”啦,阿丸会把使用方式和最佳实践都告诉你。1.什么是PhoenixPhoenix完全使用Java编写,将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。Phoenix主要能做以下这些事情: 将SQL查询编译为HBase扫描scan 确定scan的开始和停止位置 将scan并行执

2021-11-03 14:37:39 212

转载 「从零单排HBase 11」HBase二级索引解决方案

HBase一个令人惋惜的地方,就是不支持二级索引。因此,社区有了很多补充方案来填补HBase的二级索引能力的缺陷。今天,我们就来看看有哪些二级索引方案,通过对比各个方案的优缺点,并结合我们的具体场景做出二级索引方案选型。1.为什么需要二级索引HBase系统单纯从解决大数据实时读写问题角度出发,重点关注于分布式存储的扩展性、容错性、读写性能等方面,为此也牺牲了很多传统关系型数据库的功能,比如事务,SQL表达与分析等。实际上,这是NoSQL最初的含义,以解决大数据的实时存取为首要目标,提供简单的

2021-11-03 14:36:41 127

转载 图解二叉堆(最小堆&最大堆)

二叉堆二叉堆是一颗完全二叉树,该树中的某个节点的值总是不大于(不小于)其左右子节点的值,包括最小堆和最大堆。可以通过下图理解,为什么会使用数组来保存呢?因为利用完全二叉树的性质,我们可以通过数组来表示完全二叉树(数组下标与完全二叉树节点存在映射关系,比如父节点可以通过Math.floor((index-1)/2)来获取、左子节点可以通过2index+1来获取、右子节点可以通过2index+2来获取,从而简化了实现及开销,避免使用额外的指针来实现树结构。最小堆最小(大)堆性质 树根节

2021-11-03 14:36:02 1311

转载 工作累了,用java写个游戏吧 开源一款游戏引擎

吃喝玩乐是人类的基本需求,只有繁重的工作,生活完全没有乐趣,与上世纪的奴隶没什么区别。游戏作为一种生活的调剂品,占据了大部分人的生活。凡事过犹不及,all work || all play都会对个体造成不可磨灭的损伤。工作累了,不如使用熟悉的开发语言,自己做一款游戏。虽然粗糙,但那是自己的作品---一些想对这个世界说的话。本次开源的游戏引擎叫做c2d-engine,基于Java界最流行的游戏框架Libgdx,偏底层。虽然没有一些专业的游戏引擎功能齐全,但使用它,可以做一些跨平台的复杂游戏。比如下面这

2021-11-03 14:35:06 1115

转载 HIVE入门(概述、hive的体系结构)

第一章 概述1-1 课程概述什么是hive?答:hive构建在hadoop hdfs 上的数据仓库。什么是数据仓库?答:数据仓库实际上就是一个数据库,数据仓库的特点:引入冗余,分析数据;数据库的特点:避免冗余,捕获数据。1-2 数据仓库简介什么是数据仓库?答:数据仓库是一个面向主题的,集成的,不可更新的,随时间不变化的数据集合,它主要用于支持企业或组织的决策分析处理。数据仓库的结构和建立过程答:1、数据源 (业务数据系统、文档资料、其他数据)2、数据存储及管理

2021-11-02 16:02:51 126

转载 Hive基础学习

本节我们主要来学习一些hive的命令操作,同时探究一下Hive,HDFS,MySQL之间的联系,从而更好的理解其内部原理。常用的基础命令#此处的命令都是指在hive命令行下执行的命令,所有的命令别忘记以分号结尾。hive> show databases;#查看当前数据库列表hive> create databases dbname;#创建一个名称为dbname的数据库hive> use databasename;#将当前的数据库切换为databasenamehive&gt

2021-11-02 16:02:13 499

转载 Hive的基本概念和常用命令

一、概念:1、结构化和非结构化数据结构化数据:固有的键值对非结构数据:没有固定的键值对,没有明确的映射关系所以就可以理解下面这句话:hive是由facebook开源用于解决海量结构化日志的数据统计项目。2、Hive是基于Hadoop文件系统上的数据仓库架构,它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)、数据存储管理和大型数据集的查询和分析能力。RDBMS(关系型数据库)OLTP(联机事务处理过程):一组事务同时去执行,低延迟,查询为主。ACID(原子性、一

2021-11-02 16:01:11 531

转载 大数据之Hive安装配置

hive默认将元数据存储到本地内嵌的Derby数据库中,但是Derby不支持多会话链接,因此我们使用mysql数据库来存储hive的元数据。配置完成hiveSQL的元数据库之后再开始安装、配置hive。1、在线安装mysql安装命令为sudo apt-get install mysql-server当出现下面提示选择的时候输入y 同意继续安装hduser@master:~$ sudo apt-getinstallmysql-serverReading...

2021-11-02 16:00:02 174

转载 Hive的工作流程|面试宝典

最近小编的一位朋友小华学习了hiveSQL的一些常见场景及应用,也通过很多示例做了大量练习, 在心态上有一点小飘了,于是前两天去面试了一家大数据公司。面试官一开始也是给面子,问了hiveSQL操作窗口函数的两道SQL题,小华都毫无疑问做出来了,心里正美着的时候,面试官来了hive的灵魂三问:hive是如何与hadoop结合的?hive的架构大致构成是?hive的运行流程是?于是傻眼的小华面试完之后来找到小编,希望小编能够说一下hive这方面的内容。要说明白hive的整体工作流程,首先需要了解一下hi

2021-11-02 15:59:04 660

转载 阿里腾讯华为都在追捧的新一代大数据引擎Flink到底有多牛?

时间就是金钱。流式实时计算能为用户争取到更多的时间,未来需求会越来越大。Apache Flink是一个集流式批量于一体的大数据处理引擎,它具有高吞吐量和低延迟的性能,有很强容错性,非常适合各类对时间敏感的应用,如金融交易、风险控制、故障检测、电商促销等场景。传统的大数据处理引擎无法胜任类似实时计算的工作。提起大数据处理引擎,很多人会想到Hadoop或Spark,而在2019年,如果你身处大数据行业却没听说过Flink,那你很可能OUT了!Flink是大数据界冉冉升起的新星,是继Hadoop和Spark之

2021-11-02 15:58:33 491

转载 对Hadoop和Hive的初步认识

一、HadoopHadoop是有Apache基金会所开发的分布式系统处理架构,是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop框架最核心的设计就是HDFS(Hadoop Distributed File System)和MapReduce。HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。对外部客户机而言,HDFS就像一个传统的分级文件系统,可以创建、删除、移动或重命名文件。个人理解我们现在使用的网盘就是这种思想

2021-11-02 15:57:44 827

转载 分析君带你快速了解hive

本文主要针对从事大数据分析和架构相关工作,需要与hive打交道但目前对hive还没有进行深层次了解的小伙伴,希望本文会让你对hive有一个快速的了解。内容主要包括什么是hive、为什么要有hive、hive的架构、hive的数据组织以及hive的使用之DDL操作。1.什么是 hive?1 是基于 Hadoop 的一个数据仓库工具;2 可以将结构化的数据映射为一张数据库表;3 并提供 HQL(Hive SQL)查询功能;4 底层数据是存储在 HDFS 上;5 Hive的

2021-11-02 15:57:09 78

转载 学习Hive和Impala必看经典解析

Hive和Impala作为数据查询工具,它们是怎样来查询数据的呢?与Impala和Hive进行交互,我们有哪些工具可以使用呢?我们首先明确Hive和Impala分别提供了对应查询的接口:(1)命令行shell:1、Impala:impala shell2、 Hive:beeline(早期hive的命令行版本是hive shell,现在基本不使用)(2)Hue Web UI:1、Hue里面提供了 Hive查询编辑器2、Hue里面提供了Impala查询编辑器3、 Hue里面提供了

2021-11-02 15:56:30 535

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除