- 博客(10)
- 收藏
- 关注
原创 Spark面试题
在基于 Hash 的 Shuffle 实现方式中,每个 Mapper 阶段的 Task 会为每个 Reduce 阶段的 Task 生成一个文件,通常会产生大量的文件,伴随大量的随机磁盘 I/O 操作与大量的内存开销。计算每个分区时,在分区所在机器的本地上运行task是最好的,避免了数据的移动,减少数据的IO和网络传输,这样才能更好地减少作业运行时间。Spark的任务是以线程的方式运行在进程中的,MR的任务是以进程的方式运行在Yarn集群中的,开启和调度进程的代价大于线程的代价。在不需要排序的场景使用。
2024-06-03 11:20:48
511
1
原创 Flume面试题
一个分布式、可靠、高可用的海量日志采集、聚合、传输系统。Flume面试很少问比较底层的东西,相当于是一个采集工具,会用会解决故障就好。
2024-04-25 15:07:52
713
1
原创 Hadoop面试题
数据倾斜就是在计算数据的时候,由于数据分散度不够,导致大量的数据集中到一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢。
2024-04-19 19:28:05
1711
2
原创 一个月速通大数据开发
以下是我一个月速通大数据开发的学习路线,仅供参考,学完只是对大数据有一些基本了解,如果学历背景比较好的话,包装一下项目,背背八股文也能找到实习,目前刚学完,准备梳理一下知识,整理八股文准备实习。
2024-04-18 21:20:39
622
1
原创 Github加速
(IP地址填自己的,有几个填几个,好像填一个也OK,如果登不上了,这个IP地址可能更新了,重新修改就行)保存之后替换掉原来的hosts文件,重启浏览器,打开www.github.com,你会发现顺畅无比!hosts文件路径:C:\Windows\System32\drivers\etc\hosts。1.查询Github的IP地址。2.修改hosts文件。,话不多说,直接开始。
2023-09-02 22:49:51
270
原创 python给我做500份问卷
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档Python问卷自动填写前言一、自动填写问卷分为几步?二、具体步骤1.自动打开网页2.通过xpath实现自动点击至于怎么找xpath?3.自动填写并提交4.实现循环三、全部代码前言最近学校搞调研活动,需要收集问卷,还有份数要求,数量不够,自己来凑,但是手动填写有很麻烦,所以就有了这个项目。一、自动填写问卷分为几步?首先肯定是要实现自动打开网页,自动点击,这个地方,我搜了以下,基本上都是用的selenium是在我实现了第一步之
2021-11-16 12:26:01
2792
1
原创 小白如何做一个Python人工智能语音助手
小白如何做一个Python智能语音助手真的是小白?新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入真的是小白?大家好,我是一名信息工程的大三学生,由于大一大二没怎么学习技术,所以大三准备挖粪图强。先介绍一下我的学习储备吧
2021-10-20 12:30:01
28289
15
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人