![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 62
codenow.fun
不惑于自己,不惑于未来;找到自己的兴趣爱好,并不断坚持下去。
展开
-
Flink常用算子总结
Streaming 算子DataSet算子原创 2021-03-01 23:55:34 · 719 阅读 · 0 评论 -
Flink的状态管理和端到端Exactly Once 语义实现
Flink的状态管理Flink 可以处理有状态的数据,通过自身的 state 机制来保障作业 失败时数据不丢失;Flink 的 checkpoint 和故障恢复算法保证了故障发生后应用状态的一致性。因此,Flink 能够在应用程序发生故障时,对应用程序透明,不造成正确性的影响。Flink 提供了内置的状态管理,可以把这些状态存储在Flink内部,而不需要把它存储在外部系统。这样做的好处是第一降低了计算引擎对外部系统的依赖以及部署,使运维更加简单;第二,对性能带来了极大的提升:如果通过外部去访问原创 2021-02-27 22:32:09 · 268 阅读 · 0 评论 -
块存储、文件系统存储以及对象存储的特性及其应用
块存储如磁盘阵列、硬盘主要是将裸磁盘的空间映射给主机使用,提供数据保护,提高容量,提升读写效率,但主机之间无法共享数据使用场景:虚拟机磁盘存储分配、日志存储、文件存储文件系统存储如FTP、NFS服务器解决了块存储文件无法 共享的问题造价低、方便文件共享,但读写速度低,传输效率慢适用场景:日志存储、有目录结构的文件存储对象存储结合块存储和文件系统存储的优点,具备块存储的读写高速,也具备文件存储的共享特性,提供了具有高性能,高可靠性,跨平台以及安全的数..原创 2021-01-17 23:38:46 · 433 阅读 · 0 评论 -
Flink编程模型详解
Flink 为流式/批式处理应用程序的开发提供了Stateful Stream Processing、DataStream/DataSet ApI 、Table API和SQL这四个不同级别的抽象,如下如所示:1、SQL这层抽象在语义和程序表达式上都类似于 Table API,但是其程序实现都是 SQL 查询表达式。SQL 抽象与 Table API 抽象之间的关联是非常紧密的,并且 SQL 查询语句可以在 Table API 中定义的表上执行。2、Table API以表(Table原创 2020-10-22 00:05:10 · 643 阅读 · 0 评论 -
Flink的滚动窗口、会话窗口、滑动窗口及其应用
Flink窗口原创 2020-10-13 23:53:11 · 3091 阅读 · 0 评论 -
OLTP,OLAP以及HTAP的区别
OLTP,OLAP以及HTAP的区别本文链接:https://blog.csdn.net/ZG_24/article/details/87854982收起OLTPOn-Line Transaction Processing联机事务处理过程(OLTP)也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Real tim原创 2020-09-28 12:32:21 · 870 阅读 · 0 评论 -
Hive架构原理与实战——apache-hive-3.1.2+Mysql部署与配置
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行Hive特点它存储架构在一个数据库中并处理数据到HDFS。它是专为OLAP设计。它提供SQL类型语言查询叫HiveQL或HQL。它是熟知,快速,可扩展和可扩展的。Hive架构下面的组件图描绘了Hive的结构:该组件图包含不同的单元。下表描述每个单元: 单元名原创 2020-09-23 23:25:30 · 1525 阅读 · 2 评论 -
HBase RIT异常分析及其解决方案, region(s)in transistion for more than 60000 milliseceonds
最近的一段时间,HBase集群突然出现了一些异常,偶尔部分机器会出现RIT的情况,原创 2020-09-20 23:21:22 · 4999 阅读 · 0 评论 -
HBase-2.2.4 Shell操作指令和Java Api归纳
Shell 数据定义create: 用于创建一个表。create 'order','info','user'create 'userlog','info','params','result'list: 用于列出HBase的所有表。hbase(main):009:0> listTABLEorderuserlog2 row(s)Took 0.0088 seconds=> ["order", "userlog"]disable: 用于禁用表。h.原创 2020-09-16 23:48:21 · 181 阅读 · 0 评论 -
HBase-2.2.4架构原理与完全分布式使用
HBase的架构通过上图我们可以得出Hbase中的每张表都按照一定的范围被分割成多个子表(HRegion),默认一个HRegion超过 256M 就要被分割成两个,由 HRegionServer管理,管理哪些HRegion由HMaster分配。现在我们来介绍一下HBase中的一些组成部件以及它们起到的作用:Client:包含访问HBase的接口,并维护cache来加快对HBase的访问。Zookeeper:HBase依赖Zookeeper,默认情况下HBase管理Zookeeper.原创 2020-09-15 23:58:43 · 277 阅读 · 0 评论 -
HDFS架构与可靠性
Block数据块基本存储单位,一般为128M(Hadoop1.x默认64M,Hadoop2.x默认128M)基本的读写单位,类似于磁盘的页,每次读写一块每个块默认复制三分存储到多台机器NameNode存储文件的metadata,运行时所有metadata数据都保存到内存,因此整个HDFS可存储的文件数受限于NameNode的内存大小 一个Block在NameNode中对应一条记录(一般一个block占用150字节),如果是大量的小文件,会消耗大量内存。同时map tas...原创 2020-09-07 23:23:34 · 300 阅读 · 0 评论 -
Hadoop大数据生态系统测试环境构建——基于CentOS7.8部署Hadoop3.1.4集群
1、准备三台测试机器并配置好网络和免密登录, 配置4G 双核 500G ,系统 CentOS Linux release 7.8.2003 (Core)(如果觉得麻烦可以在虚拟机上搭建) ip和hostname分别是: 192.168.236.128 Master.Hadoop 192.168.236.129 Slave1.Hadoop 192.168.236.130 Slave2.Hadoop我们可以先简单试下有没有问题...原创 2020-09-04 12:07:53 · 1181 阅读 · 0 评论 -
YARN资源调度中的细节探究
1. Job submission从ResourceManager中获取一个Application ID 检查作业输出配置,计算输入分片 拷贝作业资源(job jar、配置文件、分片信息)到HDFS,以便后面任务的执行2. Job initializationResourceManager将作业递交给Scheduler(有很多调度算法,一般是根据优先级)Scheduler为作业分配一个Container,ResourceManager就加载一个application master ...原创 2020-09-01 23:55:50 · 471 阅读 · 0 评论 -
hbase/hadoop异常:No lease on /hbase/archive/data/... File is not open for writing
./hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot "MODEL.THIRD_PARTY_KV-11211752-snapshot" -copy-from hdfs://fromIP:9000/hbase -copy-to hdfs://toIP:9000/hbase -mappers 40 -bandwidth 300错误日志;org.apache.hadoop.hdfs.server.namenode.LeaseExp原创 2020-05-23 00:03:45 · 842 阅读 · 0 评论 -
HBase海量业务数据二级查询实现毫秒级响应,HBase原理与数据模型设计详解
为什么需要使用HBase做海量业务数据的存储1、扩展性强、容量大,支持百亿行、百万列数据的存储。HBase底层基于HDFS,可动态增加节点2、高可靠性,WAL机制保证数据的安全性,Replication机制保证集群的数据容灾能力3、高性能,由于底层的LSM数据结构和RowKey有序排序,HBase具备较好的随机读取性能,RowKey的查询可达毫秒级响应4、稀疏性、面向列存储,空列不...原创 2020-04-27 23:29:03 · 900 阅读 · 0 评论 -
深入理解kafka核心原理,应用场景,kafka与RocketMQ、RabbitMQ之间的比较
kafka Kafka是使用jJava和Scale实现的一种高吞吐量的分布式发布订阅消息系统,较传统消息系统,Kafka是重量级的,它具有更好的吞吐量,内置分区,复制和固有的容错能力,这使得它非常适合大规模消息处理应用程序。如日志处理,数据收集等海量流数据处理。基本概念Broker Kafka集群包含一个或多个服务器,这种服务器被称为broker [5]Topic...原创 2020-01-09 22:05:29 · 309 阅读 · 0 评论 -
logstash消费kafka消息并发送es
bin/logstash -f config/logstash.conf自动更新配置启动:./bin/lagstash -f configfile.conf --config.reload.automatic后台启动并自动更新配置利用nohup扔到后台运行。nohup /usr/local/ELk/logstash-5.1.1/bin/logstash -f /usr/lo...原创 2019-12-25 23:55:19 · 2506 阅读 · 0 评论 -
批量计算(batch computing)和流式计算(stream computing)在大数据领域的应用,Apache Storm、Apache Spark和Apache Flink
实时计算、离线计算、流式计算和批量计算分别是什么?有什么区别?大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中,流式计算和批量计算是两种主要的大数据计算模式,分别适用于不同的大数据应用场景。流数据(或数据流)是指在时间分布...原创 2019-11-26 23:41:33 · 7441 阅读 · 3 评论