- 博客(101)
- 资源 (36)
- 问答 (1)
- 收藏
- 关注
转载 数据仓库、数据湖、流批一体,终于有大神讲清楚了!!!
导读:数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点与核心问题在哪?如果想稳定落地,系统设计该怎么做?01 业务背景1. 典型实时业务场景首先我们来看一个典型的实时业务场景,这个场景也是绝大部分实时计算用户的业务场景,整个链路也是一个典型的流计算架构:把用户的行为数据或者数据库同步的Binlog,写入至kafka,再通过Flink做同步.
2020-10-20 09:28:11
711
转载 一文详解微服务架构
本文将介绍微服务架构和相关的组件,介绍他们是什么以及为什么要使用微服务架构和这些组件。本文侧重于简明地表达微服务架构的全局图景,因此不会涉及具体如何使用组件等细节。要理解微服务,首先要先理解不是微服务的那些。通常跟微服务相对的是单体应用,即将所有功能都打包成在一个独立单元的应用程序。从单体应用到微服务并不是一蹴而就的,这是一个逐渐演变的过程。本文将以一个网上超市应用为例来说明这一过程。最初的需求几年前,小明和小皮一起创业做网上超市。小明负责程序开发,小皮负责其他事宜。当时互联网还不发达,网上超市
2020-10-17 15:56:18
4608
6
原创 到底什么是QPS、TPS、RT、PV、UV、IV、VV、IP、系统吞吐量?
QPS:Queries Per Second意思是“每秒查询率”,是一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。 TPS: 是TransactionsPerSecond的缩写,也就是事务数/秒。它是软件测试结果的测量单位。一个事务是指一个客户机向服务器发送请求然后服务器做出反应的过程。客户机在发送请求时开始计时,收到服务器响应后结束计时,以此来计算使用的时间和完成的事务个数。 RT: 响应时间(RT) 是系统对请求作出响应的时间。并发数: ...
2020-10-10 14:10:26
4365
原创 Windows10下配置Vue环境
目录一、准备工作二、下载安装三、运行项目一、准备工作nodejs : JavaScript运行环境npm : nodejs下的包管理器(是国外的,在国内使用会很慢),可以使用国内的淘宝npm镜像webpack: 把无法直接在浏览器中使用的语言(如es6,sass)编译成浏览器支持的形式,资源的合并、压缩混淆vue-cli:直接构建vue项目从github上down下前端vue工程,放在指定路径下二、下载安装1、安装nodejsnodejs官网(https://
2020-09-03 10:16:57
836
2
原创 阿里云数据盘挂载
检查阿里云服务器数据盘情况输入df -h查看发现,系统现在只有系统盘:/dev/vda1,阿里云平台买的数据库盘还未挂载上;所以下面执行挂载数据盘。通过fdisk -l查到有一个40gb数据盘在闲着,必须利用起来输入"fdisk /dev/vdb",然后根据下图的提示,输入n,p,1,回车,回车,wq,保存退出如下图:通过fdisk -l查看磁盘情况,数据盘已经准备好,已经做好分区但是查看df -h,发现数据盘还没有出现此时需要把数据盘先初始化再挂载到某路径下:1.格式化挂载
2020-07-24 08:45:38
785
原创 hadoop离线分析(简单版)-windows整合
目录windows的Navicat连接ubuntu16.04的mysql-clusterwindows eclipse连接ubuntu大数据框架在eclipse上进行开发windows的Navicat连接ubuntu16.04的mysql-cluster1)在装有数据库的那台电脑,登入mysql后,更改 "mysql" 数据库里的 "user" 表里的 "host" 项,...
2020-01-22 09:07:37
566
原创 hadoop离线分析(简单版)-nginx+tomcat
目录Nginx概述tomcat概述tomcat 与 nginx,apache的区别tomcat、websphere、Jboss、weblogic区别总结Nginx+Tomcat搭建高性能负载均衡集群Nginx是一款轻量级的Web服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器。在Java的Web架构中,通常使用Tomcat和Nginx进行配合,Nginx...
2020-01-21 09:16:37
1049
原创 hadoop离线分析(简单版)-sqoop
目录sqoop概述sqoop注意点sqoop1和sqoop2区别sqoop1安装部署sqoop概述Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDF...
2020-01-15 08:55:45
588
原创 hadoop离线分析(简单版)-Kafka
目录kafka概述kafka特性和应用场景kafka基本架构及原理Zookeeper在kafka的作用Kafka核心组件Kafka备份机制kafka的安装配置(所有节点)kafka概述Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的...
2020-01-13 08:43:12
886
原创 hadoop离线分析(简单版)-Flume
目录Flume概述应用场景Flume优势Flume架构Flume与Kafka对比Flume+Kafka双剑合璧构建大数据平台日志采集Flume安装配置Flume概述flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一...
2020-01-07 14:02:40
894
原创 hadoop离线分析(简单版)-Hive
目录Hive概述Hive架构Hive运行机制Hive安装配置Hive概述基于Hbase的高层语言。类似于SQL --- 访问和处理关系型数据库的计算机语言。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件(例如xml)映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过...
2020-01-03 15:25:58
1140
原创 hadoop离线分析(简单版)-Hbase
目录Hbase概述Hbase与Hive、Pig、Impala、Tez对比Hbase架构原理Hbase逻辑模型Hbase物理存储HBase工作流程HBase的高可用HBase性能和优化HBase shell访问Hbase安装配置Hbase简易测试Hbase概述HBase是一个分布式的、面向列的开源数据库,基于Hadoop架构的数据库系统。...
2019-12-26 16:48:21
1619
原创 hadoop离线分析(简单版)-spark
目录概述spark运行流程图Spark运行特点spark组件、功能介绍Spark常用术语Spark运行模式RDD运行流程Spark安装配置概述批处理为主,流处理为辅--微批Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop...
2019-12-23 13:20:20
1244
1
原创 hadoop离线分析(简单版)-zookeeper
hadoop HA参照:https://blog.csdn.net/qq_36632174/article/details/79794754简述zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功...
2019-12-18 10:22:40
550
原创 tomcat内存溢出全记录
目录内存溢出解决记录内存及GC 的相关参数内存溢出解决记录项目平稳运行到1个月5天时候,tomcat服务突然崩溃,首先查看下tomcat的日志,如下:24-Sep-2019 10:39:06.628 严重 [http-nio-9090-exec-53] org.apache.catalina.core.StandardWrapperValve.invoke...
2019-12-16 15:31:50
2048
原创 云服务器安全防御记录
前言由于对安全防御缺乏认识,在管理阿里云服务器一年半时间后,出现了一次业务数据库被勒索事件。具体记录就是业务数据库被删除,勒索病毒自己创建一个数据库,插入一条数据,数据大概内容就是你们的数据库已经被我黑了,我们现在还保有备份,请在什么什么日期之前转多少比特币到哪,如果不转,我们将把数据库备份删除。大概这些内容,这件事发生在要为客户演示之前一天,演示数据库丢失,由于之前已经跟开发人员沟通做好数据...
2019-12-03 09:49:24
1300
原创 SSM企业版:多数据源+事务
前言之前博客中《SSM+nginx+tomcat+maven+mysql+redis环境搭建及工程全套配置,实现前后端动静分离》只是初级版的SSM体系建设,在这篇文章之前,可参照:https://blog.csdn.net/qq_36632174/article/details/102461255来了解前博客内容。本篇对上一篇做一个升级,配置多数据源,加入事务、定时任务、流程组件activ...
2019-11-30 12:49:55
580
原创 hadoop离线分析(简单版)-前期准备
之前博客已经对Apache Hadoop的高可用搭建进行描述,详细参照:https://blog.csdn.net/qq_36632174/article/details/79794754在搭建源生的Apache Hadoop之前,而且是在很干净物理服务器上搭建,还需要完成一些对系统的基础配置,比如服务器之间免登录、时间校准、批量重启等操作。不过在构建服务器之前,还是需要了解一些服务器基础知识...
2019-11-19 17:31:34
890
原创 架构之数据架构
数据平台进化实际上世界都是围绕数据在转,只是计算机、网络的出现让数据虚拟化、可视化、持久化、通信化。以前写信,现在社交软件通信;以前各地同一样商品价格差,需要人去传播,现在各大电商平台已把此种情况规避;以前的有纸化办公,升级到现在的全面电子化办公;包括当前的AI、大数据,即将的5G、物联网等,纯软件领域、软硬结合领域,所有都离不开数据的支撑,而数据的重要不言而喻。所以构建数据平台,对数据进行集...
2019-11-15 14:54:21
4142
原创 linux-shell详解
Shell综述简单的说:shell是用户和Linux操作系统之间接口,提供了与操作系统之间通讯的方式。 shell基本上是一个命令解释器,它接收用户命令(如ls等),然后调用相应的应用程序。 主要学习/bin/bash它兼容于sh,一句使用者需求,而加强的sh版本。 shell中的变量:变量的概念源于数学,在计算机中能存储计算结果,活表示值。例如...
2019-11-06 15:33:40
953
1
原创 linux-进程详解
进程概念是程序的具体实现,执行程序的具体过程。操作系统的一个重要功能就是为进程提供方便,比如启动进程,为进程分配内存空间,管理进程的相关信息等等。1)如何产生进程?执行一个程序或者命令就可以启动一个进程。进程启动时,操作系统为其分配相对应的系统内唯一的进程ID(PID)Linux启动的第一个进程: #pidof init查看所有进程:ps -a2)程序被加载为进程的示意...
2019-11-05 16:57:51
594
原创 linux杂货铺
Linux重要目录Home目录:/root,/home/username普通用户可执行文件:/bin,/usr/bin,/usr/local/bin系统管理页可执行文件:/sbin,/usr/sbin,usr/local/sbin存放用户使用系统命令和应用程序等信息.像命令.帮助文件等:usr/配置文件目录:/etc临时文件目录:/tmp,此文件夹下的文件不稳定会被系统自动清除内核...
2019-11-04 15:54:34
972
原创 linux系统介绍
Linux简介1)Linux内核最初由芬兰人利纳斯-托瓦斯,在赫尔辛基大学处于个人爱好编写。2)Linux是一套免费使用和自由传播类Unix操作系统,是一个基于POSIX和UNIX的多用户,多任务,支持多线程和多CPU的操作系统3)Linux能运行主要的Unix工具软件,应用程序和网络协议。它支持32位和64位系统,Linux继承了Unix以网络为核心的思想,是一个性能稳定的多用户网络操作...
2019-10-30 19:14:22
478
原创 数据仓库术语整理
一、度量、指标、指标器度量和维度构成OLAP的主要概念,对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。这符合上面的意思,有标准,一个度量字段肯定是统一单位,例如元、户数。如果一个度量字段,其中的度量值可能是欧元又有可能是美元,那这个度量没法汇总。在OLAP中还有计算度量的说法,用一个总费用除以用户数,得到每户平均费用。但这究竟还算不算度量了呢?这已经不是原本意义上的度...
2019-10-29 09:50:45
2317
原创 企业级数据仓库构建
数据仓库架构首先对数据仓库的架构简单介绍:facebook的ppt上了解到的是他们在hive上做大数据量的分析,计算结果放到oracle上做BI展示和计算hadoop MR or hive上ETL计算完的结果表,同步到oracle中,连接传统BI工具,呈现报表,阿里、腾讯、盛大都是这样的。※即席查询:(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生...
2019-10-28 13:59:17
1366
原创 数据仓库知识点汇总
数据仓库形象解释业务场景如下图举例说明:在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。如何统治这么多不同文化信仰的种族呢?猥琐男想出一个馊主意,打造出几枚拥有魔力的戒指,免费送给不同种族的领袖,让他们可以更好地统治各自的族人。当各个种族的领袖美滋滋地戴上各自的魔戒,走上...
2019-10-26 14:29:56
7798
原创 大数据框架--hadoop、spark、storm、flink、Samza介绍
Hadoop、Spark、Storm、Flink是比较常用的分布式计算系统1)仅批处理框架:Hadoop常用于离线的复杂的大数据处理。2)仅流处理框架:Samza与YARN和Kafka紧密集成的流处理,Storm常用于在线的实时的大数据处理。3)混合框架:Spark常用于离线的快速的大数据处理(基于内存),Flink可扩展的批处理和流式数据处理的数据处理平台。关于HadoopH...
2019-10-24 09:01:25
6923
原创 大数据基础概念(三)
数据挖掘模块作为一个跨学科的计算机科学分支,数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程,属于非传统的数据处理。相对于传统ETL数据处理,数据挖掘更侧重于知识发现,其计算和规则也更加复杂。大数据分析的理论核心,其本质是一组根据算法事先定义好的数学公式,将收集到的数据作为参数变量带入其中,从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤...
2019-10-22 10:58:35
2601
二网 B2B整合平台解决方案
2020-09-28
OOZIE与Tez执行兼容问题
2018-06-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅