![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据原理
文章平均质量分 89
52fighting
佛祖保佑 永无BUG 佛曰: 写字楼里写字间,写字间里程序员;程序人员写程序,又拿程序换酒钱。酒醒只在网上坐,酒醉还来网下眠;酒醉酒醒日复日,网上网下年复年。但愿老死电脑间,不愿鞠躬老板前;奔驰宝码贵者趣,公交自行程序员。别人笑我忒疯癫,我笑自己命太贱;不见满街漂亮妹,哪个归得程序员?
展开
-
flink归纳总结
1.14 Flink1 简单介绍一下 FlinkFlink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。DataStream API,对数据流进行流处理操作,将流式原创 2022-04-27 19:58:56 · 244 阅读 · 0 评论 -
spark归纳总结
transformation:1、sortBy : 对于RDD的是非元组型,rdd1.soreBy(x=>x),元组型按value排序rdd.soreBy(_._2)(进行shuffle)2、sortByKey : 对于RDD内存的是元组类型的使用(进行shuffle) ,sortBy和sortByKey都是transformation算子,但都会触发job任务,底层new了一个rangePartition对象,底层会调用一个foreach方法,进行排序,所以会触发job3、reduceB原创 2022-04-26 21:09:51 · 819 阅读 · 0 评论 -
kafka归纳总结
1. Kafka架构生产者、Broker、消费者、ZK;注意:Zookeeper中保存Broker id和消费者offsets等信息,但是没有生产者信息。2. Kafka的机器数量Kafka机器数量 = 2 (峰值生产速度 * 副本数 / 100)+ 13. 副本数设定一般我们设置成2个或3个,很多企业设置为2个。副本的优势:提高可靠性;副本劣势:增加了网络IO传输4. Kafka压测Kafka官方自带压力测试脚本(kafka-consumer-perf-test.sh、kafka-pro原创 2022-04-23 17:26:57 · 1207 阅读 · 0 评论 -
Hadoop、Hdfs归纳总结
1. Hadoop常用端口号hadoop2.x Hadoop3.x访问HDFS端口 50070 9870访问MR执行情况端口 8088 8088历史服务器 19888 19888客户端访问集群端口 9000 80202. Hadoop配置文件以及简单的Hadoop集群搭建(1)配置文件:Hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slavesHadoop3.x core-site.xml、hdfs-原创 2022-04-23 17:13:17 · 271 阅读 · 0 评论 -
hive归纳总结
hive基本归纳总结原创 2022-04-23 15:51:25 · 850 阅读 · 0 评论 -
Spark任务执行流程与运行架构
1.Spark的执行流程1、说明(1)构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源;(2)资源管理器分配Executor资源并启动StandaloneExecutorBackend,Executor运行情况将随着心跳发送到资源管理器上;(3)SparkContext构建成DAG图,将DAG图分解成Stage,并把Taskset发送给Task原创 2020-08-13 10:53:51 · 768 阅读 · 0 评论 -
Spark性能优化
1.程序开发开发调优Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。1.1 原则一:避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初原创 2020-08-11 19:21:53 · 903 阅读 · 0 评论 -
Hbase核心知识点
Hbase角色HMaster功能:1-监控RegionServer;2-处理RegionServer故障转移;3-处理元数据的变更;4-处理region的分配和移除;5-在空闲时间进行数据的负载均衡;6-通过Zookeeper发布自己的位置给客户端RegionServer功能:1-负责存储Hbase的实际数据;2-处理分配给它的Region3-刷新缓存到HDFS;4-维护HLog;5-执行压缩;6-负责处理Region分片;组件:1-Write-Ahead logsHb原创 2020-08-11 19:45:51 · 227 阅读 · 0 评论