大数据原理_52fighting的博客-CSDN博客

大数据原理

关注

文章平均质量分 89

关注数：文章数：8 文章阅读量：5287 文章收藏量：18

作者: 52fighting

佛祖保佑永无BUG 佛曰: 写字楼里写字间，写字间里程序员；程序人员写程序，又拿程序换酒钱。酒醒只在网上坐，酒醉还来网下眠；酒醉酒醒日复日，网上网下年复年。但愿老死电脑间，不愿鞠躬老板前；奔驰宝码贵者趣，公交自行程序员。别人笑我忒疯癫，我笑自己命太贱；不见满街漂亮妹，哪个归得程序员？

展开

flink归纳总结

1.14 Flink1 简单介绍一下 FlinkFlink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务：DataSet API，对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理，支持Java、Scala和Python。DataStream API，对数据流进行流处理操作，将流式

原创 2022-04-27 19:58:56 · 244 阅读 · 0 评论
spark归纳总结

transformation：1、sortBy ：对于RDD的是非元组型，rdd1.soreBy(x=>x),元组型按value排序rdd.soreBy(_._2)（进行shuffle）2、sortByKey ：对于RDD内存的是元组类型的使用（进行shuffle），sortBy和sortByKey都是transformation算子，但都会触发job任务，底层new了一个rangePartition对象，底层会调用一个foreach方法，进行排序，所以会触发job3、reduceB

原创 2022-04-26 21:09:51 · 819 阅读 · 0 评论
kafka归纳总结

1. Kafka架构生产者、Broker、消费者、ZK；注意：Zookeeper中保存Broker id和消费者offsets等信息，但是没有生产者信息。2. Kafka的机器数量Kafka机器数量 = 2 （峰值生产速度 * 副本数 / 100）+ 13. 副本数设定一般我们设置成2个或3个，很多企业设置为2个。副本的优势：提高可靠性；副本劣势：增加了网络IO传输4. Kafka压测Kafka官方自带压力测试脚本（kafka-consumer-perf-test.sh、kafka-pro

原创 2022-04-23 17:26:57 · 1207 阅读 · 0 评论
Hadoop、Hdfs归纳总结

1. Hadoop常用端口号hadoop2.x Hadoop3.x访问HDFS端口 50070 9870访问MR执行情况端口 8088 8088历史服务器 19888 19888客户端访问集群端口 9000 80202. Hadoop配置文件以及简单的Hadoop集群搭建（1）配置文件：Hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slavesHadoop3.x core-site.xml、hdfs-

原创 2022-04-23 17:13:17 · 271 阅读 · 0 评论
hive归纳总结

hive基本归纳总结

原创 2022-04-23 15:51:25 · 850 阅读 · 0 评论
Spark任务执行流程与运行架构

1.Spark的执行流程1、说明(1)构建Spark Application的运行环境（启动SparkContext），SparkContext向资源管理器（可以是Standalone、Mesos或YARN）注册并申请运行Executor资源；(2)资源管理器分配Executor资源并启动StandaloneExecutorBackend，Executor运行情况将随着心跳发送到资源管理器上；(3)SparkContext构建成DAG图，将DAG图分解成Stage，并把Taskset发送给Task

原创 2020-08-13 10:53:51 · 768 阅读 · 0 评论
Spark性能优化

1.程序开发开发调优Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。1.1 原则一：避免创建重复的RDD通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初

原创 2020-08-11 19:21:53 · 903 阅读 · 0 评论
Hbase核心知识点

Hbase角色HMaster功能：1-监控RegionServer；2-处理RegionServer故障转移；3-处理元数据的变更；4-处理region的分配和移除；5-在空闲时间进行数据的负载均衡；6-通过Zookeeper发布自己的位置给客户端RegionServer功能：1-负责存储Hbase的实际数据；2-处理分配给它的Region3-刷新缓存到HDFS；4-维护HLog；5-执行压缩；6-负责处理Region分片；组件：1-Write-Ahead logsHb

原创 2020-08-11 19:45:51 · 227 阅读 · 0 评论

大数据原理

作者: 52fighting

flink归纳总结

spark归纳总结

kafka归纳总结

Hadoop、Hdfs归纳总结

hive归纳总结

Spark任务执行流程与运行架构

Spark性能优化

Hbase核心知识点