![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 88
程序员劝退师丶
有道无术,术尚可求也,有术无道,止于术
展开
-
canal之mysql数据采集利器
译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务 cache 刷新带业务逻辑的增量数据处理。原创 2022-09-05 16:28:34 · 892 阅读 · 1 评论 -
flume系列(二)高级特性
1.2这种模式是将多个 flume 顺序连接起来了,从最初的 source 开始到最终 sink 传送的目的存储系统。此模式不建议桥接过多的 flume 数量, flume 数量过多不仅会影响传输速率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统。原创 2022-09-03 19:49:54 · 172 阅读 · 0 评论 -
flume系列(一)部署示例及组件介绍
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。原创 2022-09-03 18:06:00 · 518 阅读 · 0 评论 -
kafka系列(一)安装使用及基本原理
Kafka是一个分布式的基于发布/订阅模式的消息队列(MessageQueue),主要应用于大数据实时处理领域。原创 2022-09-01 20:53:26 · 1038 阅读 · 0 评论 -
flink系列(一)flink部署及架构简介
Flink系统架构中包含了两个角色,分别是JobManager和TaskManager,是一个典型的Master-Slave架构。JobManager相当于是Master,TaskManager相当于是Slave。原创 2022-07-29 10:27:05 · 781 阅读 · 0 评论 -
flink系列(二) flink架构简介及API,DataFlows
在真实的应用中,最常用的数据源是那些支持低延迟,高吞吐并行读取以及重复(高性能和容错能力为先决条件)的数据源,例如ApacheKafka,Kinesis和各种文件系统。RESTAPI和数据库也经常用于增强流处理的能力(streamenrichment)............原创 2022-08-24 21:07:24 · 752 阅读 · 0 评论 -
spark系列(三)spark RDD编程/算子介绍
httpsTransformation算子含义map(func)通过函数func传递源的每个元素,返回一个新的分布式数据集,将RDD中的每个元素进行处理,一进一出filter(func)对RDD中每个元素进行判断,返回true则保留flatMap(func)与map类似,但是每个元素都可以返回一个或多个新元素(func)func(func)funcfuncsample(,fraction,seed)fractionunion()()distinct([]))groupByKey([(...原创 2022-07-24 11:23:05 · 416 阅读 · 0 评论 -
spark系列(二)spark工作原理及常用操作
RDD通常通过Hadoop上的文件,即HDFS文件进行创建,也可以通过程序中的集合来创建RDD是Spark提供的核心抽象,全称为ResillientDistributedDataset,即弹性分布式数据集。原创 2022-07-19 14:53:26 · 359 阅读 · 0 评论 -
Spark系列(一)spark简介及安装配置
什么是Spark:Spark是一个用于大规模数据处理的统一计算引擎注意:Spark不仅仅可以做类似于MapReduce的离线数据计算,还可以做实时数据计算,并且它还可以实现类似于Hive的SQL计算,等等,所以说它是一个统一的计算引擎内存计算Spark中一个最重要的特性就是基于内存进行计算,从而让它的计算速度可以达到MapReduce的几十倍甚至上百倍2. spark特点:2.1 Speed:速度快由于Spark是基于内存进行计算的,所以它的计算性能理论上可以比MapReduce快100倍。原创 2022-07-13 16:08:14 · 6276 阅读 · 0 评论 -
HBase系列(二) 高级篇
预分区:请求数据的负载均衡的分发到每台regionserver。不要负载过高1.一定要短2.散列原则–实现负载均衡如果Rowkey是按时间戳的方式递增,不要将时间放在二进制码的前面,建议将Rowkey的高位作为散列字段,由程序循环生成,低位放时间字段,这样将提高数据均衡分布在每个Regionserver实现负载均衡的几率。如果没有散列字段,首字段直接是时间信息将产生所有新数据都在一个 RegionServer上堆积的热点现象,这样在做数据检索的时候负载将会集中在个别RegionServer,降低查询效率原创 2022-06-13 15:21:35 · 241 阅读 · 0 评论 -
HBase系列(一)
Apache HBase是面向列的数据存储,开源的分布式的多版本的非关系型数据库(依赖谷歌bigtable论文) HBase的全称是Hadoop Database,是一个高可靠性,高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。主要用来存储非结构化和半结构化数据的松散数据(列存NoSQL数据库)。注意:NoSQL的全称是Not Only SQL,泛指非原创 2022-06-10 16:16:12 · 337 阅读 · 0 评论 -
Hive系列(五)hive调优
explain 关键字2.Hive 优化Hive运行方式:本地模式:set.hive.exec.mode.local.auto=true;原创 2022-06-07 20:15:27 · 481 阅读 · 0 评论 -
Hive系列(四)hive高级篇
1.hive参数操作1.在${HIVE_HOME}/conf/hive-site.xml文件中添加参数设置注意:永久生效,所有的hive会话都会加载对应的配置2.在启动hive cli时,通过--hiveconf key=value的方式进行设置例如:hive --hiveconf hive.cli.print.header=true3、在进入到cli之后,通过set命令设置--在hive cli控制台可以通过set对hive中的参数进行查询设置--set设置 set hi.原创 2022-01-09 22:11:10 · 2084 阅读 · 0 评论 -
hive系列(三) Hive 企业级使用及Hive函数
1.hive server2 允许客户端远程连接GettingStarted - Apache Hive - Apache Software Foundation$HIVE_HOME/bin/hiveserver2node:10020 webUI页面2.启动后使用beeline连接$HIVE_HOME/bin/beeline#hive需要使用非root用户连接修改hadoop集群配置core-site.xml <!-- root是beeline的登录用户-..原创 2022-01-09 13:51:41 · 757 阅读 · 0 评论 -
hive系列(二) 常用语句操作
1.hive server2 允许客户端远程连接GettingStarted - Apache Hive - Apache Software Foundation$HIVE_HOME/bin/hiveserver2node:10020 webUI页面2.启动后使用beeline连接$HIVE_HOME/bin/beeline#hive需要使用非root用户连接修改hadoop集群配置core-site.xml <!-- root是beeline的登录用户--.原创 2022-01-09 11:54:41 · 1270 阅读 · 0 评论 -
hive系列(一) 企业级安装及架构介绍
Hive产生:为了非java编程者对hdfs的数据进行MapReduce操作介绍:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sq查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在Hadoop.上的数据仓库基础构架。原创 2022-01-09 11:53:39 · 316 阅读 · 0 评论 -
hadoop系列(四)HDFS的工作机制,MapReduce,yarn流程及核心原理
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2022-01-08 17:26:05 · 644 阅读 · 0 评论 -
hadoop系列(三) HDFS的shell操作和常用API操作
hdfs是一个文件系统所以他有类似于unix,linux/有用户的概念(持有者,持有组)有权限的概念有权限的概念:hdfs 的权限是自己控制的,来自于hdfs的超级用户(hadoop的启动用户)使用:./hdfs dfs -chown test:test /root结论 默认hdfs 依赖操作系统上的用户和组。原创 2021-12-13 23:53:29 · 823 阅读 · 0 评论 -
hadoop系列(二)HA高可用方式部署
hadoop系列(一)hadoop集群安装hadoop系列(二)HA高可用方式部署hadoop系列(三) HDFS的shell操作和常用API操作hadoop系列(四)HDFS的工作机制,MapReduce,yarn流程及核心原理hadoop系列(五)input和output主节点(nameNode节点)与其他从节点具备ssh免密登录环境HOSTNameNodeSNNDNZKFCZKnode01√√node02√√√√√。原创 2021-12-13 22:16:42 · 2499 阅读 · 0 评论 -
hadoop系列(一)hadoop集群安装
主机具备的基础环境设置IP及主机名 关闭防火墙及selinux 设置host映射 时间同步 设置ssh免密登录参考:https://blog.csdn.net/qq_38130094/article/details/119871733?spm=1001.2014.3001.5501hadoop-2.8.5版本的包node1(master) 配置4C4G 192.168.1.101 node2(slave) 配置2C2G 192.168.1.102 n原创 2021-12-09 16:15:51 · 2602 阅读 · 0 评论 -
flume系列(一)flume基础知识及第一个demo
1. 什么是flumeApache flume是一个分布式,高可靠性的海量日志采集,聚合和传输的系统,用于有效的的从许多不同的源收集,聚合和移动大量日志数据收集到集中式数据存储Apache flume使用不仅限于日志数据聚合,由于数据源是可定制的,因此flume可用于大量事件数据,包括不限于网络流量数据,社交媒体中产生的数据,电子邮件以及任何可能得数据源2.日志收集Flume最早是Cloudera提供的日志收集系统,是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送.原创 2021-04-06 17:14:01 · 420 阅读 · 0 评论 -
谷歌三大论文
千里之行,始于足下;学习大数据的第一步就是熟读谷歌三大论文这里奉上中英文对照版链接: https://pan.baidu.com/s/1WwAawzE-jTxdAvBBBECmsQ提取码: 3a3r原创 2020-12-22 15:12:03 · 560 阅读 · 0 评论