2021年06月_大数据架构师Pony

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创大数据常用端口汇总

所有端口协议均基于TCPHDFS DataNode 50010 dfs.datanode.address datanode服务端口，用于数据传输HDFS DataNode 50075 dfs.datanode.http.address http服务的端口HDFS DataNode 50475 dfs.datanode.https.address https服务的端口HDFS DataNode 50020 dfs.datanode.ipc.address ipc服务的端口HDFS Nam.

2021-06-29 10:50:27 1005 1

原创 Apache Flink流批一体

Spark和Flink都具有流和批处理能力，但是他们的做法是相反的。Spark Streaming是把流转化成一个个小的批来处理，这种方案的一个问题是我们需要的延迟越低，额外开销占的比例就会越大，这导致了Spark Streaming很难做到秒级甚至亚秒级的延迟。Flink是把批当作一种有限的流，这种做法的一个特点是在流和批共享大部分代码的同时还能够保留批处理特有的一系列的优化链接：https://www.jianshu.com/p/a8f022ab6b02开源的大数据分析平台除了Flink外.

2021-06-28 16:24:28 314

原创开源算法列表

2021-06-28 14:51:26 147

转载 canal+mysql+kafka（canal监控mysql的binlog，把数据变化写入到kafka中）

https://www.cnblogs.com/throwable/p/12483983.htmlhttps://www.cnblogs.com/throwable/p/12483983.htmlhttps://www.cnblogs.com/throwable/p/12483983.html按照步骤，搭建完成即可成功！

2021-06-17 20:39:42 445

原创 canal1.1.4免费下载

链接：https://pan.baidu.com/s/1z4GOcO_OQE4W0HWXPj1URw提取码：uo6q

2021-06-17 14:23:43 567 2

原创 kafka-manager2.0.0.0免费下载

链接：https://pan.baidu.com/s/15zNCK6fCmhXXUWfqyDb0MA提取码：65h0

2021-06-17 14:11:46 313

原创大数据面试--20210611

基础题1、flink checkpoint 与 savepoint 区别以及使用场景1.checkpoint的侧重点是“容错”，即Flink作业意外失败并重启之后，能够直接从早先打下的checkpoint恢复运行，且不影响作业逻辑的准确性。而savepoint的侧重点是“维护”，即Flink作业需要在人工干预下手动重启、升级、迁移或A/B测试时，先将状态整体写入可靠存储，维护完毕之后再从savepoint恢复现场。2.savepoint是“通过checkpoint机制”创建的...

2021-06-11 15:50:05 1204 1

原创大数据面试-20210318

基础题1、hdfs 写文件过程以3节点3副本为例：1、客户端通过Distributed FileSystem（FS对象）请求namenode上传文件到对应的目录下，namenode接收到请求后，检查目标文件是否已存在。2、namenode返回是否可以上传。3、client会先对文件进行切分，比如一个block块128m，请求第一个 block该传输到哪些datanode服务器上。4、namenode返回三个datanode节点A、B、C，根据距离远近以及负载大小返回给客户..

2021-06-11 15:44:44 179

原创解决idea springboot run找不到或无法加载主类问题

run：启动报错错误: 找不到或无法加载主类 com.xxx.Application解决

2021-06-09 15:08:55 1955 4

原创大数据面试-20210317

基础题1、RDD、DataFrame、DataSet三者的区别与联系?联系：a. RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利。如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。b.三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但...

2021-06-09 14:27:43 178

原创大数据面试-20210316

1、简单讲述一下Yarn Application生命周期1、client向RM提交应用程序，其中包括启动该应用的ApplicationMaster的必须信息，例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2、ResourceManager启动一个container用于运行ApplicationMaster。3、启动中的ApplicationMaster向ResourceManager注册自己，启动成功后与RM保持心跳。4、Appl...

2021-06-09 10:50:56 155

原创大数据面试-20210315

1、简述Spark中的缓存机制（cache和persist）与checkpoint机制,并指出两者的区别与联系区别：1.cache的作用等价于 persist 不带参数的情况，RDD的 cache() 方法其实调用的就是persist方法，缓存策略均为MEMORY_ONLY。即persist可以代替cache，反之则不行。2.checkpoint算子不仅能将RDD持久化到磁盘，还能切断RDD之间的依赖关系。3.完成application后checkpoint的数据依然在磁盘上，而cac.

2021-06-09 09:21:23 213 1

原创大数据面试-20210312

基础题1、介绍一下拉链表的原理，以及适用于哪些场景?拉链表是一种数据模型，主要是针对数据仓库设计中表存储数据的方式而定义的；顾名思义，所谓拉链表，就是记录历史，记录一个事务从开始一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储所有记录造成的海量存储问题，同时也是处理缓慢变化数据（SCD2）的一种常见方式。原理：说白了就是在原有表基础上增加两个字段，一个start_time，一个end_time数据如果不变就不动，如果有新数据进来，就将原数据的end_time天数-1.

2021-06-08 16:42:29 331

原创大数据面试-20210311

基础题1、谈谈Hadoop里面的压缩格式以及使用场景压缩格式比较

2021-06-08 16:38:49 261

原创大数据面试-20210310

基础题1、清楚描述 MapReduce 的 shuffle 过程Map方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小100m，环形缓冲区达到80%时，进行溢写；溢写前对数据进行排序，排序按照对key的索引进行字典顺序排序，排序的手段快排；溢写产生大量溢写文件，需要对溢写文件进行归并排序；对溢写的文件也可以进行Combiner操作，前提是汇总操作，求平均值不行。最后将文件按照分区存储到磁盘，等待Reduce端拉取。2、HBa...

2021-06-08 16:32:31 119

原创大数据面试-20210309

1、谈谈你对Hive内部表、外部表、分区表、分桶表的区别，并介绍一下使用场景内部表如果Hive中没有特别指定，则默认创建的表都是管理表，也称内部表。由Hive负责管理表中的数据，管理表不共享数据。删除管理表时，会删除管理表中的数据和元数据信息。外部表当一份数据需要被共享时，可以创建一个外部表指向这份数据。删除该表并不会删除掉原始数据，删除的是表的元数据。当表结构或者分区数发生变化时，需要进行一步修复的操作。分区表介绍：分区使用的...

2021-06-08 16:29:56 125

原创大数据面试-20210308：hdfs ，Spark streaming， Flink三者中的checkpoint原理 hdfs checkpoint原理

每达到触发条件，会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge （这个过程称为checkpoint），如下图所示：

2021-06-08 16:04:34 761

原创 hdfs启动流程

NameNode1.init()namenode初始化，执行加载配置文件等操作2.loadFsImage()2、loadFsImage() ,开始加载元数据 FsImage3.loadEditlog()加载Editlog，将Editlog中记录的元数据修改应用到内存中；4.saveCheckpoint()将内存中最新的目录树持久化为新的FsImage到磁盘，以加快下次启动速度5.startRpcServer()启动RPC服务，开始接受外部请求；6.star...

2021-06-08 15:56:40 1226

原创协同过滤是什么？

协同过滤 Collaborative Filtering简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息，回应不一定局限于特别感兴趣的，特别不感兴趣信息的纪录也相当重要。协同过滤推荐（Collaborative Filtering recommendation）是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，.

2021-06-08 15:43:28 836

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

东城庞太师