程序员劝退师丶-CSDN博客

原创 canal之mysql数据采集利器

译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署，存在跨机房同步的业务需求，实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始，业务逐步尝试数据库日志解析获取增量变更进行同步，由此衍生出了大量的数据库增量订阅和消费业务基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务 cache 刷新带业务逻辑的增量数据处理。

2022-09-05 16:28:34 1092

原创 flume系列(二)高级特性

1.2这种模式是将多个 flume 顺序连接起来了，从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量， flume 数量过多不仅会影响传输速率，而且一旦传输过程中某个节点 flume 宕机，会影响整个传输系统。

2022-09-03 19:49:54 285

原创 flume系列(一)部署示例及组件介绍

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。

2022-09-03 18:06:00 615

原创 kafka系列(一)安装使用及基本原理

Kafka是一个分布式的基于发布/订阅模式的消息队列（MessageQueue），主要应用于大数据实时处理领域。

2022-09-01 20:53:26 1132

原创 flink系列(二) flink架构简介及API，DataFlows

在真实的应用中，最常用的数据源是那些支持低延迟，高吞吐并行读取以及重复（高性能和容错能力为先决条件）的数据源，例如ApacheKafka，Kinesis和各种文件系统。RESTAPI和数据库也经常用于增强流处理的能力（streamenrichment）............

2022-08-24 21:07:24 933

原创 flink系列(一)flink部署及架构简介

Flink系统架构中包含了两个角色，分别是JobManager和TaskManager，是一个典型的Master-Slave架构。JobManager相当于是Master，TaskManager相当于是Slave。

2022-07-29 10:27:05 929

原创 spark系列(三)spark RDD编程/算子介绍

httpsTransformation算子含义map(func)通过函数func传递源的每个元素，返回一个新的分布式数据集，将RDD中的每个元素进行处理，一进一出filter(func)对RDD中每个元素进行判断，返回true则保留flatMap(func)与map类似，但是每个元素都可以返回一个或多个新元素(func)func(func)funcfuncsample(,fraction,seed)fractionunion()()distinct([]))groupByKey([(...

2022-07-24 11:23:05 549

原创 spark系列(二)spark工作原理及常用操作

RDD通常通过Hadoop上的文件，即HDFS文件进行创建，也可以通过程序中的集合来创建RDD是Spark提供的核心抽象，全称为ResillientDistributedDataset，即弹性分布式数据集。

2022-07-19 14:53:26 477

原创 Spark系列(一)spark简介及安装配置

什么是Spark：Spark是一个用于大规模数据处理的统一计算引擎注意：Spark不仅仅可以做类似于MapReduce的离线数据计算，还可以做实时数据计算，并且它还可以实现类似于Hive的SQL计算，等等，所以说它是一个统一的计算引擎内存计算Spark中一个最重要的特性就是基于内存进行计算，从而让它的计算速度可以达到MapReduce的几十倍甚至上百倍2. spark特点：2.1 Speed：速度快由于Spark是基于内存进行计算的，所以它的计算性能理论上可以比MapReduce快100倍。

2022-07-13 16:08:14 7318

原创 HBase系列(二) 高级篇

预分区：请求数据的负载均衡的分发到每台regionserver。不要负载过高1.一定要短2.散列原则–实现负载均衡如果Rowkey是按时间戳的方式递增，不要将时间放在二进制码的前面，建议将Rowkey的高位作为散列字段，由程序循环生成，低位放时间字段，这样将提高数据均衡分布在每个Regionserver实现负载均衡的几率。如果没有散列字段，首字段直接是时间信息将产生所有新数据都在一个 RegionServer上堆积的热点现象，这样在做数据检索的时候负载将会集中在个别RegionServer，降低查询效率

2022-06-13 15:21:35 351

原创 HBase系列(一)

Apache HBase是面向列的数据存储，开源的分布式的多版本的非关系型数据库(依赖谷歌bigtable论文) HBase的全称是Hadoop Database,是一个高可靠性，高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为其分布式协同服务。主要用来存储非结构化和半结构化数据的松散数据（列存NoSQL数据库）。注意：NoSQL的全称是Not Only SQL，泛指非

2022-06-10 16:16:12 520

原创 Hive系列(五)hive调优

explain 关键字2.Hive 优化Hive运行方式：本地模式：set.hive.exec.mode.local.auto=true;

2022-06-07 20:15:27 640

原创 Hive系列(四)hive高级篇

1.hive参数操作1.在${HIVE_HOME}/conf/hive-site.xml文件中添加参数设置注意：永久生效，所有的hive会话都会加载对应的配置2.在启动hive cli时，通过--hiveconf key=value的方式进行设置例如：hive --hiveconf hive.cli.print.header=true3、在进入到cli之后，通过set命令设置--在hive cli控制台可以通过set对hive中的参数进行查询设置--set设置 set hi.

2022-01-09 22:11:10 2441

原创 hive系列(三) Hive 企业级使用及Hive函数

1.hive server2 允许客户端远程连接GettingStarted - Apache Hive - Apache Software Foundation$HIVE_HOME/bin/hiveserver2node:10020 webUI页面2.启动后使用beeline连接$HIVE_HOME/bin/beeline#hive需要使用非root用户连接修改hadoop集群配置core-site.xml <!-- root是beeline的登录用户-..

2022-01-09 13:51:41 951

原创 hive系列(二) 常用语句操作

1.hive server2 允许客户端远程连接GettingStarted - Apache Hive - Apache Software Foundation$HIVE_HOME/bin/hiveserver2node:10020 webUI页面2.启动后使用beeline连接$HIVE_HOME/bin/beeline#hive需要使用非root用户连接修改hadoop集群配置core-site.xml <!-- root是beeline的登录用户--.

2022-01-09 11:54:41 1454

原创 hive系列(一) 企业级安装及架构介绍

Hive产生：为了非java编程者对hdfs的数据进行MapReduce操作介绍：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表,并提供简单的sq查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是建立在Hadoop.上的数据仓库基础构架。

2022-01-09 11:53:39 421

原创 hadoop系列(四)HDFS的工作机制，MapReduce，yarn流程及核心原理

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

2022-01-08 17:26:05 1393

原创 hadoop系列(三) HDFS的shell操作和常用API操作

hdfs是一个文件系统所以他有类似于unix,linux/有用户的概念(持有者，持有组)有权限的概念有权限的概念：hdfs 的权限是自己控制的，来自于hdfs的超级用户(hadoop的启动用户)使用：./hdfs dfs -chown test:test /root结论默认hdfs 依赖操作系统上的用户和组。

2021-12-13 23:53:29 1147

原创 hadoop系列(二)HA高可用方式部署

hadoop系列(一)hadoop集群安装hadoop系列(二)HA高可用方式部署hadoop系列(三) HDFS的shell操作和常用API操作hadoop系列(四)HDFS的工作机制，MapReduce，yarn流程及核心原理hadoop系列(五)input和output主节点(nameNode节点)与其他从节点具备ssh免密登录环境HOSTNameNodeSNNDNZKFCZKnode01√√node02√√√√√。

2021-12-13 22:16:42 2874

原创 hadoop系列(一)hadoop集群安装

主机具备的基础环境设置IP及主机名关闭防火墙及selinux 设置host映射时间同步设置ssh免密登录参考：https://blog.csdn.net/qq_38130094/article/details/119871733?spm=1001.2014.3001.5501hadoop-2.8.5版本的包node1(master) 配置4C4G 192.168.1.101 node2(slave) 配置2C2G 192.168.1.102 n

2021-12-09 16:15:51 2986

原创 centos7虚拟机安装后sshd免密/关闭selinux/同步时间常用配置

背景：在服务器越来越多的场景下，我们通常会使用ssh的方式跳转登录到目标机器来简化登录服务器的步骤ssh [-l login_name] [-p port] [user@]hostnamecentos7 三台(1已配置完主机名；关闭防火墙) 网络通畅，可以通过主机名ping通1.设置免密登录1.1 打开sshd服务1：编辑/etc/ssh/sshd_configRSAAuthentication yesPubkeyAuthentication yesAuth

2021-08-23 16:24:57 1355

原创 etcd3.4手动搭建

1. etcd单机安装配置地址：https://github.com/etcd-io/etcd/releases创建脚本，执行脚本ETCD_VER=v3.5.0# choose either URLGOOGLE_URL=https://storage.googleapis.com/etcdGITHUB_URL=https://github.com/etcd-io/etcd/releases/downloadDOWNLOAD_URL=${GOOGLE_URL}rm -f /tmp/

2021-07-06 15:15:20 627

原创 flume系列(一)flume基础知识及第一个demo

1. 什么是flumeApache flume是一个分布式，高可靠性的海量日志采集，聚合和传输的系统，用于有效的的从许多不同的源收集，聚合和移动大量日志数据收集到集中式数据存储Apache flume使用不仅限于日志数据聚合，由于数据源是可定制的，因此flume可用于大量事件数据，包括不限于网络流量数据，社交媒体中产生的数据，电子邮件以及任何可能得数据源2.日志收集Flume最早是Cloudera提供的日志收集系统，是Apache下的一个孵化项目，Flume支持在日志系统中定制各类数据发送.

2021-04-06 17:14:01 523

原创 filebeta部署及配置文件详解

环境系统：centos7.5ES：6.6kinbanafilebeta：6.6.0应用：tomcat/nginx日志文件filebeta和ES的版本最好对应filebeta参考地址：https://elkguide.elasticsearch.cn/beats/file.htmlfilebeta及ES下载地址：https://elasticsearch.cn/download/filebeta部署1.上传文件只服务器指定目录2. 解压缩tar -zxvf filebeat-6.6

2021-03-31 14:19:50 901

原创 ELK 日志收集系统方案

背景在项目初期的时候，大家都是赶着上线，一般来说对日志没有过多的考虑，当然日志量也不大，所以用log4j就够了，随着应用的越来越多，日志散落在各个服务器的logs文件夹下，确实有点不大方便。或者是分布式系统：当我们需要日志分析的时候你大概会这么做：直接在日志文件中 grep、awk就可以获得自己想要的信息。这就造成了日志查询极其繁琐；如果日志中有敏感数据，也要考虑是否开放给所有人可能遇到的问题：日志量太大如何归档、文本搜索太慢怎么办、如何多维度查询应用太多，面临数十上百台应用时你该怎么办，随意登录

2021-03-31 09:57:03 2253 2

原创 Kubernetes系列(一)部署及安装（未完成中）

1.什么是Kuberneteskuberneter是一个生成级别的开源平台，可协调在计算机集群内核跨计算机集群的应用容器的部署(调度)和执行，他具有完备的集群管理能力，包括多层次的安全防护和准入机制，多租户应用支撑能力，透明的服务注册和服务发现机制，内建智能负载均衡器，和强大的故障发现和自我修复能力，服务滚动升级，和在线扩容能力，可扩展的资源自动调度机制，以及多粒度的资源配置管理能力kubernetes是一个开放的平台，不局限于任何一种语言，没有限定的任何编程接口，所以不论使用java，Go，C++还是

2021-03-23 19:09:41 931 2

国内IP库数据库文件（mysql）

全国省市区数据sql （mysql）三级联动

nexus2-3.linux两个版本

谷歌三大论文（GFS，big Table,map reduce）

淘淘商城mysql脚本

空空如也