大数据
文章平均质量分 92
姠惢荇者
衣带渐宽终不悔 为伊消得人憔悴
展开
-
Elasticsearch学习笔记:基本概念
1、常见概念1.1、索引 索引是具有相同结构的文档集合,有点儿类似关系型数据库中表的概念。1.2、映射 映射像关系数据库中的表结构,每一个索引都有一个映射,它定义了索引中的每一个字段类型,以及一个索引范围内的设置。索引映射可以提前设定,也可以在第一次存储文档的时候自动识别。2、常见操作2.1、创建索引PUT /index_test{ "settings":{ "index":{ "number_of_shards": "2", "number_of_r原创 2021-03-23 22:26:56 · 1033 阅读 · 0 评论 -
阿里的过来人告诉你,数据中台为什么搞不下去了?
搞数据的都知道,阿里发明了数据中台,然后“中台”这个概念就马上成为了国内大多数企业趋之若鹜的风口,真正实施后却发现中台与数据平台、数据湖等项目大差不差,又有好多机构开始忙着拆中台了,中台虽然还没到人见人烦的地步,但总体来讲已经不那么受待见了。 我发现网上也有很多文章进行分析,但大多是长篇大论,表述也过于技术,今天我就用最通俗的话跟大家解释一下。首先,先解释一下中台的概念 首先,不论是数据中台,还是业务中台,都属于中台的一种。而中台的职责在于抽象共性形成通用服务能力。 而数据中台就是抽象处理转载 2021-03-19 14:02:09 · 1658 阅读 · 0 评论 -
分布式事务解决方案——基于Atomikos的实现
声明:以下关于“JTA规范事务模型”、“Spring JTA分布式事务的实现”等内容均来源于其他大佬的博客内容,并已经表明出处。1、JTA规范事务模型 Java Transaction API,通常称为JTA,是用于管理 Java中的事务的API 。它允许我们以资源无关的方式启动,提交和回滚事务。 JTA为J2EE平台提供了分布式事务服务(distributed transaction)的能力。 某种程度上,可以认为JTA规范是XA规范的Java版,其把XA规范中规定的DTP模型交互接口抽象成.原创 2021-01-30 19:11:36 · 1729 阅读 · 0 评论 -
分布式事务入门 —— 概述
1、本地事务 关于本地事务相关概念请参考《数据库事务Transaction》和《MySQL实现架构、事务概述、锁机制》。在这两篇文章中,主要讲解了本地事务的基本概念、ACID特性和隔离级别等内容。2、分布式事务 在传统的单节点应用中,本地事务就可以满足需求了。但随着互联网时代的到来,数据量的急剧增加、服务复杂程度越来越高,为了解决这些问题,分库分表、微服务架构等技术或思想就应用而生了,这个时候,多个服务资源或多个数据库资源就需要在同一个事务中进行管理了,但是本地事务却对此无能为力,所以分布式事务就原创 2021-01-28 22:00:45 · 203 阅读 · 2 评论 -
基于MyCat实现的Mysql数据库的读写分离
1、数据切分1.1、原因 在传统的业务场景中,数据量不大、并发量不高,所以单机的数据库服务基本上就可以满足了业务需要。而在互联网时代,数据爆发式增加,数据量和并发量都急剧增加,这对单机数据库就带来许多的挑战。为了解决单机数据库的瓶颈问题,我们就需要对数据库进行切分,把大库变成多个小库。1.2、数据切换 为了实现大库变成多个小库,就需要对数据库进行数据切分。数据切分,就是通过一些规则,将原来存储在单机数据库的数据,分散到多个数据库(一般都多主机)中,从而达到降低单台数据库负载的压力。数据切分,一般原创 2021-01-22 11:18:31 · 347 阅读 · 0 评论 -
Sharding-jdbc学习笔记:基础概念和示例
1、前言 随着时间和业务的发展,数据库中的表会越来越多,表中的数据也会越来越多,带来的问题就是对于数据的操作会越来越慢。当遇见这种情况,如何解决这些问题呢?提升单台服务器的配置?但是单台服务器的资源毕竟有限,最终数据库的数量和数据处理能力还是会遇到瓶颈,再者无限提升服务器配置也会急剧增加硬件成本。还有什么方法可以解决这些问题,这就是今天我们要讨论的分库分表。 分库分表主要是为了解决互联网应用的大数据量存储问题,分库分表通常分为:垂直划分、水平划分。垂直划分按照业务拆分的方式称为垂直分片,又称为原创 2021-01-28 00:06:05 · 300 阅读 · 1 评论 -
基于haproxy、keepalived实现MyCat的高可用
1、MyCat高可用架构 这里主要是基于haproxy、keepalive实现Mycat的高可用性,所以没有再绘制Mycat后面的数据库分布情况。其中,keepalived主要是为了保证haproxy的高可用,主要用于监控haproxy是否可用,然后进行故障转移;而haproxy主要用来实现负载均衡。2、服务器规划服务器haproxykeepalivemycatmysql192.168.1.8部署192.168.1.9部署部署部署部署192.1原创 2021-01-24 21:55:54 · 502 阅读 · 0 评论 -
基于MyCat实现的Mysql数据库的分库分表、全局表、父子表等
1、前言 在上一篇《基于MyCat实现的Mysql数据库的读写分离》中,我们学习了数据切分的知识、mycat的基本概念,最后又尝试了基于mycat实现的Mysql数据库的读写分离。这一节,我们详细学习mycat的用法,并实现数据库的分库分表。2、Mycat的基本用法2.1、MyCat的安装 MyCat的安装很简单,就是下载、解压、配置即可,上一篇已经详细记录了下载地址、解压命令,这里不再重复。2.2、mycat目录 安装目录如下:bin 目录存放了脚本命令,包括 window 版本和原创 2021-01-23 17:34:14 · 1908 阅读 · 9 评论 -
理解维度数据仓库——事实表、维度表、聚合表
一、事实表在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。一个按照州、产品和月份划分的销售量和销售额存储的事实表有5个列,概念上与下面的示例类似。在这些事实表的示例数据行中,前3个列——州、产品和月份——为键值列。剩下的两个列——销售额和销售量——为度量值。事实表中的每个列通常要么是键值列,要么是度量值列,但也可能包含其他参考目的的列——例如采购订单号或者发票号。事实表中,每个度量值都有一个列。不同事实表将有不同的度量值。一个销售数据仓库可能含有这两个度量值列:销售额和销售量。一个现场转载 2021-01-20 16:54:14 · 1528 阅读 · 0 评论 -
在CentOS7环境下搭建Elasticsearch集群
1、环境准备 为了搭建Elasticsearch集群,我们这里准备了三台虚拟机环境,IP地址分别是:192.168.1.8,192.168.1.9,192.168.1.10。并且JDK环境、防火墙配置等都已经准备好了,详细请参考《如何快速搭建一个简易的ELK日志分析系统》,在这篇博文中,我们已经成功搭建了单机版的Elasticsearch环境。2、集群搭建 其实基于单机版的ES环境,改造成为ES集群环境,只需要少量配置即可。这里从下载ES开始,重头梳理一遍。 因为在配置集群的过程中,三台机器都原创 2020-12-03 15:00:15 · 1317 阅读 · 1 评论 -
Hadoop学习笔记之初识Hadoop
1、大数据1.1、大数据概念 “大数据”是收集各种数据,经过分析后用来做有意义的事,其中包括对数据进行采集、管理、存储、搜索、共享、分析和可视化。大数据技术就是发现大规模数据中的规律,通过对数据的分析实现对运营层决策的支持。大数据技术框架一般包含6个部分,分别是数据收集、数据存储、资源管理、计算框架、数据分析和数据可视化。1.2、大数据的特点 大数据的特点可以用“4v”来表示,分别为volume、variety、velocity和value。量性(volume):大数据的数据量很大,每天我原创 2020-08-11 13:02:11 · 406 阅读 · 0 评论 -
Kafka核心概念和安装部署
一、简介Kafka是一款开源的、轻量级的、分布式、可分区和具有复制备份的(Replicated)、基于ZooKeeper协调管理的分布式流平台的功能强大的发布—订阅消息系统。据Kafka官方网站介绍,当前的Kafka已经定位为一个分布式流式处理平台(a distributed streaming platform),它最初由LinkedIn公司开发,后来成为Apache项目的一部分。作为一个消息系统,其基本结构中至少要有产生消息的组件(消息生产者,Producer)以及消费消息的组件(消费者,Consu原创 2020-08-10 16:52:00 · 336 阅读 · 0 评论 -
Hadoop使用过程中常见的错误
1、异常:“java.io.IOException: Got error, status message , ack with firstBadLink as 192.168.1.10:50010”[root@node01 servers]# ./hadoop-2.7.5/bin/hdfs dfs -put test.txt /input20/08/10 22:28:42 INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.io.原创 2020-08-10 15:33:18 · 1489 阅读 · 0 评论 -
Spark入门---安装与使用
1、简介 Spark是一个统一的、用于大数据分析处理的、快速且通用的集群计算系统。它开创了不以MapReduce为执行引擎的数据处理框架,提供了Scala、Java、Python和R这4种语言的高级API,以及支持常规执行图的优化引擎。 Spark还支持包括用于离线计算的Spark Core、用于结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图形处理的GraphX和进行实时流处理的Spark Streaming等高级组件,它在项目中通常用于迭代算法和交互式分析。Spark和Ma原创 2020-08-09 22:46:01 · 426 阅读 · 0 评论 -
结构数据采集工具Sqoop的安装和使用
1、简介 Sqoop是一种用于在Hadoop和结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。比如,Sqoop从关系型数据库管理系统(MySQL、Oracle等)向Hadoop分布式文件系统(HDFS)、Hive或Hbase等中导入数据;或者从Hadoop分布式文件系统、Hive或Hbase等通过Sqoop导入到关系数据库中。 Sqoop的底层原理本质上是MapReduce任务。Sqoop是通过一个MapReduce作业从数据库中导入一个表,这个作业从表中逐行抽取数据,接着将一行行的数据原创 2020-08-09 14:36:50 · 501 阅读 · 0 评论 -
启动hadoop时,免密码登录引发的错误:“The authenticity of host ‘node01 (192.168.1.8)‘ can‘t be established.”
The authenticity of host ‘node01 (192.168.1.8)’ can’t be established.详细报错:[root@node01 hadoop-2.7.5]# sbin/start-yarn.shstarting yarn daemonsstarting resourcemanager, logging to /export/servers/hadoop-2.7.5/logs/yarn-root-resourcemanager-node01.outThe原创 2020-08-08 20:57:44 · 6245 阅读 · 2 评论 -
非结构数据采集工具---Flume,实现数据采集示例
1、Flume简介 Apache Flume是一种分布式、可靠和可用的系统,用于高效收集、聚合,以及将大量日志数据从许多不同的来源移动到集中式数据存储上。使用Apache Flume不仅限于日志数据的聚合。由于数据源是可定制的,因此可以使用Flume来传输大量的事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息和其他数据源。 Flume使用两个独立的事务负责从Source到Channel及从Channel到Sink的事件传递。Channel中的File Channel具有持久性,事原创 2020-08-07 23:34:37 · 1833 阅读 · 0 评论 -
HBase入门学习---安装与使用
1、前言 HBase属于列式非关系型数据库(NoSQL),最早起源于Google发布的Bigtable,是由Powerset公司的Chad walters和Jim Kelleman在2006年末发起的。2007年7月,由Mike Cafarella提供代码,形成了一个基本可用的系统。2、NoSQL NoSQL=Not Only SQL,不仅仅是SQL。NoSQL是一个通用术语,即非关系型数据库,它不是以SQL作为其主要访问语言。NoSQL数据库共分为4类,分别是键值(Key-Value)存储数据库原创 2020-08-07 14:09:40 · 325 阅读 · 0 评论 -
避坑指南:Centos7安装部署Hive时踩坑笔记
常见错误:FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClienthttps://blog.csdn.net/qq_35078688/article/details/86137440Ex原创 2020-08-06 17:56:17 · 1036 阅读 · 0 评论 -
Hadoop的数据仓库Hive的基础知识和安装部署
1、数据仓库 和 Hive 数据仓库是为了协助分析报告,支持决策,为需要业务智能的企业提供业务流程的改进和指导,从而节省时间和成本,提高质量。它与数据库系统的区别是,数据库系统可以很好地解决事务处理,实现对数据的“增、删、改、查”操作,而数据仓库则是用来做查询分析的数据库,通常不会用来做单条数据的插入、修改和删除。 Hive主要应用于传统的数据仓库任务ETL(Extract‐Transformation‐Loading)和报表生成。Hive作为一个数据仓库工具,非常适合数据的统计分析,它可以将数据文原创 2020-08-06 17:21:39 · 363 阅读 · 0 评论 -
ELK日志系统通过系统crontab命令设置定期删除日志索引
1、需求 在前面部署的ELKB日志系统,在实际应用过程中,每天都会产生大量的日志信息,尤其是在开发环境,由于日志级别比较低,每天都会产生大量的日志。为了避免ELK系统过度消耗磁盘和内存,需要考虑定期删除Elasticsearch中的相关日志索引。这里通过Linux系统的crontab命令,并结合Elasticsearch的api实现定期删除日志的目的。2、编写删除日志索引的脚本1>、编辑deleteEsData.sh文件#!/bin/bash#filename:deleteEsData.s原创 2020-07-09 14:42:17 · 640 阅读 · 0 评论 -
Elasticsearch-head插件的安装和使用
一、简介 因为Ealsticsearch只是后端提供各种API,为了方便管理Ealsticsearch中的数据,所以我们可以借助elasticsearch-head插件。elasticsearch-head插件是一款专门针对于elasticsearch的可视化的客户端工具,它依赖Node.js库,使用Grunt工具构建,所以我们要安装elasticsearch-head之前,还需要先安装Node.js和Grunt等依赖环境。elasticsearch5.0以下版本可以直接在elasticsearch原创 2020-05-19 16:57:07 · 2103 阅读 · 0 评论 -
基于Filebeat实现ELK日志分析系统的多源日志采集
一、前言 在阅读这篇博文前,请先了解《如何快速搭建一个简易的ELK日志分析系统》一文,在这篇博文中我们可以了解学习到EKL系统的搭建,同时实现了读取一个固定日志文件中的内容,并进行分析的示例。 在本文中,我们通过引入FileBeats组件,Beats是一个“搬运工”,通过监听文件变化,将分布在各个服务器上的日志搬运到日志收集服务器(Logstash服务)上,从而实现了日志的集中管理和分析。二、所需环境服务器名称IP地址环境作用node08192.168.1.8ELK原创 2020-05-17 23:13:49 · 1041 阅读 · 0 评论 -
在搭建ELK日志分析系统中的常见问题和解决方案
1、原创 2020-05-18 13:41:57 · 1608 阅读 · 0 评论 -
通过Sentinl插件实现ELK日志系统的错误信息报警
1、目标 通过安装配置Sentinal插件,实现当错误日志中出现“error”字符串时,就发送报警信息,并发送到钉钉的工作群中。让运维人员可以快速去排查系统问题,方便问题发现,提高系统用户体验。这里只是简单实现了出现“error”字符就报警,可以配置复杂的条件,实现更高级的报警条件。2、准备工作1、 钉钉机器人配置参考《自定义机器人webhook》,这里使用了markdown类型的消息格式。配置好机器人后,主要使用webhook链接,进行消息推送,所以需要保存下来该链接及其相关信息。2、原创 2020-07-28 19:37:14 · 1735 阅读 · 3 评论 -
ELKB日志分析系统在实践过程中的细节处理
1、前言 在《如何快速搭建一个简易的ELK日志分析系统》和《基于Filebeat实现ELK日志分析系统的多源日志采集》两篇博文中,实现了ELK系统的搭建和基于Filebeat实现的多源日志的收集功能,基本上实现了集中式日志管理分析系统的功能。近期,按照上述的步骤,为生产环境搭建了一套集中日志管理系统,其中遇见了几个细节问题,记录下来,以便持续改进。2、优化点1>、FileBeat配置name属性。 在FileBeat的filebeat.yml配置文件中,可以配置name属性(默认使用的是h原创 2020-07-03 10:15:03 · 341 阅读 · 0 评论 -
如何快速搭建一个简易的ELK日志分析系统
一、ELK简介 ELK就是一款非常优秀的、开源的、用于搭建实时日志分析平台的组件。ELK是Elasticsearch、Logstash和Kiabana这3款开源框架首字母的缩写。通过这三个组件,构建一个统一的日志管理系统,用来收集分布式部署系统中分散在不同设备上的日志,方便后续进行日志分析。 其中,Elasticsearch是一个实时的分布式搜索和分析引擎,建立在全文搜索引擎Apache Lucene基础之上,使用Java语言编写,具有分布式、高可用性、易扩展、具有副本和索引自动分片功能、提供基于H原创 2020-05-17 17:53:06 · 8003 阅读 · 3 评论 -
Hadoop学习笔记之教你如何搭建Hadoop集群环境
1、环境准备 首先准备了三台虚拟机(为了避免环境的干扰,都是新建的虚拟机),分别分配了2G内存、40G硬盘、2核CPU,然后安装了CentOS-7-x86_64-Minimal-1810操作系统,并配置了静态IP地址。集群规划:搭建的是NameNode与ResourceManager单节点架构。节点具体分别如下:服务器名称IP地址NameNodeSecondaryNameN...原创 2020-04-28 23:33:14 · 635 阅读 · 1 评论