自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 rabbitmq高可用集群的搭建

一.功能和原理1.设计集群的目的(1)允许消费者和生产者在RabbitMQ节点崩溃的情况下继续运行;(2)通过增加更多的节点来扩展消息通信的吞吐量.2.集群配置方式Rabbitmq可以通过三种方法来部署分布式集群系统,分别是:cluster,federation,shovela)cluster:不支持跨网段,用于同一个网段内的局域网可以随意的动态增加或者减少节点...

2019-01-06 14:59:08 6816 3

原创 记一次Hive执行Job挂起的解决方法

最近在清洗数据的时候发现Hive表清洗时,通过yarn控制台发现状态是Accepted状态,Hive使用tez引擎启动时挂起,查询日志发现:Application is added to the scheduler and is not yet activated. Skipping AM assignment as cluster resource is empty. Details : AM Partition = <DEFAULT_PARTITION>; AM Resource Re

2020-12-01 15:46:30 2045 1

原创 Spark机器学习库简介

一.大数据与机器学习大数据时代,数据产生的速度是非常惊人的。互联网、移动互联网、物联网、GPS等等都会在无时无刻产生着数据。处理这些数据所需要的存储与计算的能力也在成几何级增长,由此诞生了一系列的以Hadoop为代表的大数据技术,这些大数据技术为处理和存储这些数据提供了可靠的保障。数据、信息、知识是由大到小的三个层次。单纯的数据很难说明一些问题,需要加之人们的一些经验,将其转换为信息,所谓信息,也就是为了消除不确定性,我们常说信息不对称,指的就是在不能够获取足够的信息时,很难消除一些不确定的因素。而

2020-11-20 15:23:15 1800

原创 基于ClickHouse的海量数据高效即席查询方案

一.背景介绍ClickHouse 是俄罗斯Yandex在2016年年开源的⼀一个⾼高性能分析型SQL数 据库,主要⾯面向OLAP场景。开源之后,凭借优异的查询性能,受到业界的青睐。优点:1)为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理;2)数据压缩空间大,减少io;处理单查询高吞吐量每台服务器每秒最多数十亿行;3)索引非B树结构,不需要满足最左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制ClickHouse全表扫描的速度也很快;

2020-11-20 14:46:14 6214

原创 分布式事务seata源码简要剖析

一.背景介绍 阿里巴巴Seata分布式事务致力于提供高性能的简单易用的解决方案,主要分为AT,TCC,SAGA和XA四种事务模式。这里主要分为三类角色:Transaction Maneger(TM),Resource Manager(RM),Transaction coordinater(TC)。其中TM主要负责事务的开启,提交与回滚。RM负责分支事务的注册,分支事务状态的汇报等,TC部署在服务端,主要负责全局与分支事务状态的记录,发起提交/回滚全局事务的请求等等。下面将分别介绍各种事...

2020-11-11 12:16:46 171

原创 hive性能调优总结

1.fetch抓取 hive.fetch.task.conversion=more 在某些情况下不必要使用MR计算。 hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。2.本地模式hive在进行集群作业时多台机器上协调运行,解决了大数据量查询的问题。但当数据量比较小时,没必要使用分布式查询,可以使用本地模式来执行mr job,只在单台机器上执行效率高很多。set hive.exec.mode.local.auto=true ...

2020-11-11 11:25:38 683

原创 HDFS启动时的安全模式

######基础概念####### 当hadoop的datanode节点启动时,会进入安全模式阶段。在此阶段,datanode会向namenode上传它们的数据块列表,让namenode得到块的位置信息,并对每个文件对应的数据块的副本进行统计。当最小副本条件满足时,系统就会退出安全模式。当最小副本数未达到一定条件时,系统会自动对副本数不足的数据块进行datanode复制,直至达到最小副本数,而在安全模式下,系统会处于只读状态,namenode不会处理任何数据块的删除和修改命令。######安...

2020-11-09 18:10:29 382

原创 使用Java API操作Hadoop环境搭建

本教程演示均为windows环境下的操作,使用unix/linux系统请绕道。首先,在服务器上部署安装好Hadoop,下载安装包传送门hdp下载地址,在这里不再过多演示。配置windows中的Hadoop环境1.将linux服务器上部署的Hadoop安装包下载一份到windows下,保证是英文安装目录。2.配置系统环境变量,这里以hadoop2.6.5为例。实际配置中请替换成自己的版本。3.在系统Path变量中添加4.下载相关依赖包,传送门winutils地址然后将对..

2020-08-03 21:38:42 1288

原创 微服务项目接入Log4j2

后台程序开发及上线时,一般都会用到Log信息打印及Log日志记录,开发时通过Log信息打印可以快速的定位问题所在,帮助我们快捷开发。程序上线后如遇到Bug或错误,此时则需要日志记录来查找发现问题所在。springboot构建微服务工程可以使用很多不同的日志系统,如logback,log4j,log4j2等,其中最常用的Apache Log4j,而Log4j 2是Log4j的升级版本,Log4j 2...

2019-04-25 10:32:46 1133

原创 ElasticSearch基本命令入门

一.安装 elasticSearch需要安装jdk1.8才能运行,先执行java -version确保已安装好。 接下来可以顺序执行:(以Centos7安装为例) wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.5.1.zip unzipelas...

2019-04-23 20:18:28 242

转载 分布式ID的生成方案

分布式ID的特性唯一性:确保生成的ID是全网唯一的。 有序递增性:确保生成的ID是对于某个用户或者业务是按一定的数字有序递增的。 高可用性:确保任何时候都能正确的生成ID。 带时间:ID里面包含时间,一眼扫过去就知道哪天的交易。分布式ID的生成方案1. UUID算法的核心思想是结合机器的网卡、当地时间、一个随记数来生成UUID。优点:本地生成,生成简单,性能好,没有高可用风...

2019-01-31 16:19:34 158

原创 IDEA神器使用技巧

      对于大多数web应用开发的程序员来说,IDEA Intellij是一款使用很频繁且功能十分强大的开发工具,如果对这款IDE的使用技巧也非常熟悉的话,会使你平常的开发效率提高百倍.那么下面就简单介绍一些平常开发中比较常用的操作技巧.笔者是在Ubuntu系统下的进行的操作,windows系统下的大部分操作也类似.1.多项目跳转快捷键:ctrl+alt+左方括号(或者右方括号)2.查...

2019-01-12 17:06:12 288

原创 kafka常用命令记录

启动:./bin/kafka-server-start.sh ./config/server.properties &amp;停止:./bin/kafka-server-stop.sh创建topic:./bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 ...

2019-01-06 15:19:35 199

原创 kafka学习入门

一.kafka核心概念kafka采用分区(Partition)的方式,使得消费者能够做到并行消费,从而大大提高了自己的吞吐能力。同时为了实现高可用,每个分区又有若干份副本(Replica),这样在某个broker挂掉的情况下,数据不会丢失。分区(Partition)大多数消息系统,同一个topic下的消息,存储在一个队列。分区的概念就是把这个队列划分为若干个小队列,每一个小队列就是一个...

2019-01-06 15:17:44 162

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除