自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(93)
  • 资源 (6)
  • 收藏
  • 关注

原创 canal之mysql数据采集利器

译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务 cache 刷新带业务逻辑的增量数据处理。

2022-09-05 16:28:34 965 1

原创 flume系列(二)高级特性

1.2这种模式是将多个 flume 顺序连接起来了,从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量, flume 数量过多不仅会影响传输速率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统。

2022-09-03 19:49:54 210

原创 flume系列(一)部署示例及组件介绍

Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。

2022-09-03 18:06:00 538

原创 kafka系列(一)安装使用及基本原理

Kafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue),主要应用于大数据实时处理领域。

2022-09-01 20:53:26 1071

原创 flink系列(二) flink架构简介及API,DataFlows

在真实的应用中,最常用的数据源是那些支持低延迟,高吞吐并行读取以及重复(高性能和容错能力为先决条件)的数据源,例如ApacheKafka,Kinesis和各种文件系统。RESTAPI和数据库也经常用于增强流处理的能力(streamenrichment)............

2022-08-24 21:07:24 803

原创 flink系列(一)flink部署及架构简介

Flink系统架构中包含了两个角色,分别是JobManager和TaskManager,是一个典型的Master-Slave架构。JobManager相当于是Master,TaskManager相当于是Slave。

2022-07-29 10:27:05 807

原创 spark系列(三)spark RDD编程/算子介绍

httpsTransformation算子含义map(func)通过函数func传递源的每个元素,返回一个新的分布式数据集,将RDD中的每个元素进行处理,一进一出filter(func)对RDD中每个元素进行判断,返回true则保留flatMap(func)与map类似,但是每个元素都可以返回一个或多个新元素(func)func(func)funcfuncsample(,fraction,seed)fractionunion()()distinct([]))groupByKey([(...

2022-07-24 11:23:05 462

原创 spark系列(二)spark工作原理及常用操作

RDD通常通过Hadoop上的文件,即HDFS文件进行创建,也可以通过程序中的集合来创建RDD是Spark提供的核心抽象,全称为ResillientDistributedDataset,即弹性分布式数据集。

2022-07-19 14:53:26 383

原创 Spark系列(一)spark简介及安装配置

什么是Spark:Spark是一个用于大规模数据处理的统一计算引擎注意:Spark不仅仅可以做类似于MapReduce的离线数据计算,还可以做实时数据计算,并且它还可以实现类似于Hive的SQL计算,等等,所以说它是一个统一的计算引擎内存计算Spark中一个最重要的特性就是基于内存进行计算,从而让它的计算速度可以达到MapReduce的几十倍甚至上百倍2. spark特点:2.1 Speed:速度快由于Spark是基于内存进行计算的,所以它的计算性能理论上可以比MapReduce快100倍。

2022-07-13 16:08:14 6858

原创 HBase系列(二) 高级篇

预分区:请求数据的负载均衡的分发到每台regionserver。不要负载过高1.一定要短2.散列原则–实现负载均衡​如果Rowkey是按时间戳的方式递增,不要将时间放在二进制码的前面,建议将Rowkey的高位作为散列字段,由程序循环生成,低位放时间字段,这样将提高数据均衡分布在每个Regionserver实现负载均衡的几率。如果没有散列字段,首字段直接是时间信息将产生所有新数据都在一个 RegionServer上堆积的热点现象,这样在做数据检索的时候负载将会集中在个别RegionServer,降低查询效率

2022-06-13 15:21:35 259

原创 HBase系列(一)

Apache HBase是面向列的数据存储,开源的分布式的多版本的非关系型数据库(依赖谷歌bigtable论文) HBase的全称是Hadoop Database,是一个高可靠性,高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。主要用来存储非结构化和半结构化数据的松散数据(列存NoSQL数据库)。注意:NoSQL的全称是Not Only SQL,泛指非

2022-06-10 16:16:12 375

原创 Hive系列(五)hive调优

explain 关键字2.Hive 优化Hive运行方式:本地模式:set.hive.exec.mode.local.auto=true;

2022-06-07 20:15:27 525

原创 Hive系列(四)hive高级篇

1.hive参数操作1.在${HIVE_HOME}/conf/hive-site.xml文件中添加参数设置​注意:永久生效,所有的hive会话都会加载对应的配置2.在启动hive cli时,通过--hiveconf key=value的方式进行设置例如:hive --hiveconf hive.cli.print.header=true3、在进入到cli之后,通过set命令设置--在hive cli控制台可以通过set对hive中的参数进行查询设置--set设置 set hi.

2022-01-09 22:11:10 2184

原创 hive系列(三) Hive 企业级使用及Hive函数

1.hive server2 允许客户端远程连接GettingStarted - Apache Hive - Apache Software Foundation$HIVE_HOME/bin/hiveserver2node:10020 webUI页面2.启动后使用beeline连接$HIVE_HOME/bin/beeline#hive需要使用非root用户连接修改hadoop集群配置core-site.xml <!-- root是beeline的登录用户-..

2022-01-09 13:51:41 794

原创 hive系列(二) 常用语句操作

1.hive server2 允许客户端远程连接GettingStarted - Apache Hive - Apache Software Foundation$HIVE_HOME/bin/hiveserver2node:10020 webUI页面2.启动后使用beeline连接$HIVE_HOME/bin/beeline#hive需要使用非root用户连接修改hadoop集群配置core-site.xml <!-- root是beeline的登录用户--.

2022-01-09 11:54:41 1308

原创 hive系列(一) 企业级安装及架构介绍

Hive产生:为了非java编程者对hdfs的数据进行MapReduce操作介绍:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sq查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在Hadoop.上的数据仓库基础构架。

2022-01-09 11:53:39 338

原创 hadoop系列(四)HDFS的工作机制,MapReduce,yarn流程及核心原理

MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。

2022-01-08 17:26:05 1197

原创 hadoop系列(三) HDFS的shell操作和常用API操作

hdfs是一个文件系统所以他有类似于unix,linux/有用户的概念(持有者,持有组)有权限的概念有权限的概念:hdfs 的权限是自己控制的,来自于hdfs的超级用户(hadoop的启动用户)使用:./hdfs dfs -chown test:test /root结论 默认hdfs 依赖操作系统上的用户和组。

2021-12-13 23:53:29 1055

原创 hadoop系列(二)HA高可用方式部署

hadoop系列(一)hadoop集群安装hadoop系列(二)HA高可用方式部署hadoop系列(三) HDFS的shell操作和常用API操作hadoop系列(四)HDFS的工作机制,MapReduce,yarn流程及核心原理hadoop系列(五)input和output主节点(nameNode节点)与其他从节点具备ssh免密登录环境HOSTNameNodeSNNDNZKFCZKnode01√√node02√√√√√。

2021-12-13 22:16:42 2752

原创 hadoop系列(一)hadoop集群安装

主机具备的基础环境设置IP及主机名 关闭防火墙及selinux 设置host映射 时间同步 设置ssh免密登录参考:https://blog.csdn.net/qq_38130094/article/details/119871733?spm=1001.2014.3001.5501hadoop-2.8.5版本的包node1(master) 配置4C4G 192.168.1.101 node2(slave) 配置2C2G 192.168.1.102 n

2021-12-09 16:15:51 2874

原创 centos7虚拟机安装后sshd免密/关闭selinux/同步时间常用配置

背景:在服务器越来越多的场景下,我们通常会使用ssh的方式跳转登录到目标机器来简化登录服务器的步骤ssh [-l login_name] [-p port] [user@]hostnamecentos7 三台(1已配置完主机名;关闭防火墙) 网络通畅,可以通过主机名ping通1.设置免密登录1.1 打开sshd服务1:编辑/etc/ssh/sshd_configRSAAuthentication yesPubkeyAuthentication yesAuth

2021-08-23 16:24:57 1266

原创 etcd3.4手动搭建

1. etcd单机安装配置地址:https://github.com/etcd-io/etcd/releases创建脚本,执行脚本ETCD_VER=v3.5.0# choose either URLGOOGLE_URL=https://storage.googleapis.com/etcdGITHUB_URL=https://github.com/etcd-io/etcd/releases/downloadDOWNLOAD_URL=${GOOGLE_URL}rm -f /tmp/

2021-07-06 15:15:20 523

原创 flume系列(一)flume基础知识及第一个demo

1. 什么是flumeApache flume是一个分布式,高可靠性的海量日志采集,聚合和传输的系统,用于有效的的从许多不同的源收集,聚合和移动大量日志数据收集到集中式数据存储Apache flume使用不仅限于日志数据聚合,由于数据源是可定制的,因此flume可用于大量事件数据,包括不限于网络流量数据,社交媒体中产生的数据,电子邮件以及任何可能得数据源2.日志收集Flume最早是Cloudera提供的日志收集系统,是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送.

2021-04-06 17:14:01 439

原创 filebeta部署及配置文件详解

环境系统:centos7.5ES:6.6kinbanafilebeta:6.6.0应用:tomcat/nginx日志文件filebeta和ES的版本最好对应filebeta参考地址:https://elkguide.elasticsearch.cn/beats/file.htmlfilebeta及ES下载地址:https://elasticsearch.cn/download/filebeta部署1.上传文件只服务器指定目录2. 解压缩tar -zxvf filebeat-6.6

2021-03-31 14:19:50 756

原创 ELK 日志收集系统方案

背景在项目初期的时候,大家都是赶着上线,一般来说对日志没有过多的考虑,当然日志量也不大,所以用log4j就够了,随着应用的越来越多,日志散落在各个服务器的logs文件夹下,确实有点不大方便。或者是分布式系统:当我们需要日志分析的时候你大概会这么做:直接在日志文件中 grep、awk就可以获得自己想要的信息。这就造成了日志查询极其繁琐;如果日志中有敏感数据,也要考虑是否开放给所有人可能遇到的问题:日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询应用太多,面临数十上百台应用时你该怎么办,随意登录

2021-03-31 09:57:03 1947 2

原创 Kubernetes系列(一)部署及安装(未完成中)

1.什么是Kuberneteskuberneter是一个生成级别的开源平台,可协调在计算机集群内核跨计算机集群的应用容器的部署(调度)和执行,他具有完备的集群管理能力,包括多层次的安全防护和准入机制,多租户应用支撑能力,透明的服务注册和服务发现机制,内建智能负载均衡器,和强大的故障发现和自我修复能力,服务滚动升级,和在线扩容能力,可扩展的资源自动调度机制,以及多粒度的资源配置管理能力kubernetes是一个开放的平台,不局限于任何一种语言,没有限定的任何编程接口,所以不论使用java,Go,C++还是

2021-03-23 19:09:41 785 2

原创 docker系列(三)docker三剑客之Compose

撒大声地奥术大师多

2021-03-17 13:58:51 145

原创 docker系列(二)docker file及docker maven

docker file命令解释大全1. docker file基础指令dockerfile组成 指令 基础镜像指令 FROM 维护者信息 MAINTAINER 镜像操作指令 RUN COPY. ADD、EXPOSE等 容器启动时执行 CMD、ENTRYPOINT 2. Dockerfile指令详解docker file 指令 Dockerfile指令 使用说明 FROM 第一条指令必须为FROM指令,指定Base镜像 MAI

2021-03-08 16:34:20 940

原创 docker系列(一)部署安装与卸载

环境:centos1:Docker要求CentOS系统的内核版本高于 3.10 ,通过uname -r命令查看你当前的内核版本是否支持安账docker2:查看仓库中docker版本,并选择特定版本安装:yum list docker-ce --showduplicates | sort -r...

2021-03-08 14:18:09 220

原创 elasticSearch系列(一)从零到一简介及搭建

一 . Elasticsearch是什么 Elasticsearch是一个高度可扩展的开源全文本搜索和分析引擎。它可以快速,近实时地存储,搜索和分析大量数据。它通常用作支持具有复杂搜索功能和要求的应用程序的基础引擎。ES分布式的索引库,nosql 对外提供检索服务:http或者transport(7.0后不再支持)协议对外提供搜索,Restful的json 对内就是一个数据库nosql二 . Elasticsearch的场景 电商网站。允许客户搜索产品。可以使用...

2020-12-24 16:49:29 382

原创 谷歌三大论文

千里之行,始于足下;学习大数据的第一步就是熟读谷歌三大论文这里奉上中英文对照版链接: https://pan.baidu.com/s/1WwAawzE-jTxdAvBBBECmsQ提取码: 3a3r

2020-12-22 15:12:03 588

原创 skywalking部署及使用看这篇就够了文档

版本:JDK1.8ES:6.6+这里使用的是当前最新包:apache-skywalking-apm-8.1.0下载安装包:wget https://mirrors.tuna.tsinghua.edu.cn/apache/skywalking/8.1.0/apache-skywalking-apm-8.1.0.tar.gz解压并进入config目录:tar -zxvf apache-skywalking-apm-8.1.0.tarcd config修改application.yml配置文件

2020-12-17 18:40:17 4490 2

原创 maven打包把第三方的jar放到外部lib目录只留下自己指定的jar

我这里是springBoot打包时遇到的问题;每次打包上传测试都要把第三方不变jar在上传一遍而且打包后的这些jar包也是占比最多的,无论是占用的带宽还是时长都是可以优化的一 .maven打war包:增加插件:packagingIncludes这个标签里是指定打包时保留的jar <plugin> <artifactId>maven-compiler-plugin</artifactId>

2020-08-31 17:55:00 2229

原创 spring cloud Alibaba系列(一)nacos配置中心使用详解

简介spring cloud Alibaba是spring cloud的一个子项目,听过了微服务开发的一整套企业级解决方案;包含了微服务开发的必要组件是阿里的微服务解决方案nacos简介:Nacos 致力于帮助您发现、配置和管理微服务。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据及流量管理。1.Nacos服务端搭建nacos下载地址:h...

2020-03-11 16:29:27 1497

原创 IO系列(二) netty组件及线程模型详解

简介:Netty是一个NIO客户端服务器框架,可以快速轻松地开发网络应用程序,例如协议服务器和客户端。它极大地简化和简化了网络编程,例如TCP和UDP套接字服务器。Netty的使用场景:互联网行业:在分布式系统中,各个节点之间需要远程服务调用,高性能的 RPC 框架必不可少, Netty 作为异步高性能的通信框架,往往作为基础通信组件被这些 RPC 框架使用。典型的应用有:阿 里分布式服务框架...

2020-03-11 09:45:48 432

原创 IO系列(一) IO模型基础详解

Java共支持3种网络编程IO模式:BIO,NIO,AIO;IO模型就是说用什么样的通道进行数据的发送和接收,1. BIO(Blocking IO)同步阻塞模型,一个客户端连接对应一个处理线程缺点:1、IO代码里read操作是阻塞操作,如果连接不做数据读写操作会导致线程阻塞,浪费资源2、如果线程很多,会导致服务器线程太多,压力太大。...

2020-03-08 18:17:09 446

原创 java基础之Hash详解

1.HashMap数据结构java1.7及以前 HasMap会产生死锁,java1.8及以后不会有死锁1.7基础数据模型:数组+链表死锁原因:HashMap在多线程的场景下,扩容期间存在节点位置互换指针引用的问题有可能导致死锁;put时:数据丢失1.8基础数据模型:数组+链表+红黑树*1.7中HashMap的put时扩容的源码:* /** *使用 *容量更大。当 *此映射...

2020-02-05 11:46:17 3518

原创 并发编程之Executor线程池

1. 线程池简介1.1 线程池:“线程池”,顾名思义就是一个线程缓存,线程是稀缺资源,如果被无限制的创建,不仅会消耗系统资源,还会降低系统的稳定性,因此Java中提供线程池对线程进行统一分配、调优和监控;1.2 线程池介绍在web开发中,服务器需要接受并处理请求,所以会为一个请求来分配一个线程来进行处理。如果每次请求都新创建一个线程的话实现起来非常简便,但是存在一个问题:如果并发的请求数量...

2020-02-04 10:31:47 255

原创 并发编程之Unsafe魔法类详解

1. unsafe类详解Unsafe是位于sun.misc包下的一个类,主要提供一些用于执行低级别、不安全操作的方法,如直接访问系统内存资源、自主管理内存资源等,这些方法在提升Java运行效率、增强Java语言底层资源操作能力方面起到了很大的作用。但由于Unsafe类使Java语言拥有了类似C语言指针一样操作内存空间的能力,这无疑也增加了程序发生相关指针问题的风险。在程序中过度、不正确...

2020-02-03 14:58:45 569

原创 JVM 启动参数详细解析:运行模式-堆内存-日志相关-垃圾收集器

JVM作为java运行环境最重要的一部分,通过对java启动命令指定不同的参数以此让虚拟机达到最佳运行状态和行为这里对jvm参数进行总结和分析,希望能给大家带来帮助,同时如果有不足之处还望指出。Java 启动命令程序的格式为:java [options] classname [args]java [options] -jar filename [args]options: 命令行...

2020-01-26 16:15:01 1152

谷歌三大论文(GFS,big Table,map reduce)

谷歌三大论文

2020-12-22

nexus2-3.linux两个版本

linux版本下的nexus-2.12.0-01-bundle.zip和nexus-3.27.0-03-unix.tar.gz官网下载巨慢而且csdn其他的下载的要不然就是版本不合适就是太贵由此在这做个备份

2020-09-10

国内IP库数据库文件(mysql)

国内IP省份,数据有点老,但是还是能用的。如果用于生成环境最好还是要每次更新数据

2018-08-16

淘淘商城mysql脚本

传智播客-淘淘商城数据库脚本sql脚本,本人亲测可用。

2018-05-22

全国省市区数据sql (mysql)三级联动

全国(省)-(市)-(区)-mysql脚本数据,共四张表三张基础数据表和一张关联表

2018-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除