鲁迅也懵逼-CSDN博客

原创某里巴巴公司，招聘spark技术笔试题

62.大数据和人工智能技术应用于医学领域可以做心脏病的预测等，thalach（心跳）数值作为非常重要的特征参与计算预测的样本数据，进入预测模型训练前需要对样本数据进行简单清洗过滤去除异常值，假设样本数据存放在Hive表中，过滤出thalach数小于200大于10的正常值，表名称为 DWH_test，心跳值字段为 thalach，下面SQL语法正确的是？这体现了大数据分析理念中的（ B）。51.HDFS作为大数据主流的存储框架，具备良好的容灾特性，其中多副本是一个主要原因，HDFS默认副本数是？

2025-06-14 19:07:42 876

原创 spark找工作面试题-笔试最多出现的题

42. (判断题)对join操作有两种情况：如果两个RDD在进行join操作时，一个RDD的partition仅仅和另一个RDD中已知个数的Partition进行join，那么这种类型的join操作就是窄依赖。41. (判断题)transformations操作会在一个已存在的 RDD上创建一个新的 RDD，但实际的计算并没有执行，仅仅记录操作过程，所有的计算都发生在actions环节。输出分区数和指定分区数相同，如果没有指定分区数，安装默认的并行级别，默认分区规则是哈希分区。

2025-06-13 13:46:57 476

原创 spark，找工作面试题：在spark中，常用的RDD行动操作API有哪些，请写出并说明？

解答：collect()：返回RDD中的所有元素（1分）count()：返回RDD中的元素个数（1分）countByValue()：各元素在RDD中出现的次数（1分）take()：从RDD中返回num个元素，将尽可能访问少的分区（1分）reduce()：并行整合RDD中所有数据，操作两个相同元素类型的RDD数据返回一个同样类型的新元素（1分）

2025-06-12 08:51:52 795

原创找工作常见Spark笔试面试题

就是说MapReduce的Map Task和Reduce Task是进程级别的，而Spark Task则是基于线程模型的，就是说mapreduce 中的 map 和 reduce 都是 jvm 进程，每次启动都需要重新申请资源，消耗了不必要的时间（假设容器启动时间大概1s，如果有1200个block，那么单独启动map进程事件就需要20分钟）应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，最后程序运行结束后，回收这些资源。

2025-06-09 11:02:32 487

原创 CENTOS7 shell截取数据脚本编程

有30000000条数据，该数据为某国2018年第一季度出口贸易数据（数据表明为out.csv），因为数据量太大，所以在进行分析的时候要截取前300000条数据进行分析，截取的数据生成一个新表，取名为small_out.csv，请编写shell脚本完成该任务。最后的$infile > $outfile必须跟在}’这两个字符的后面。3）执行：predeal.sh out.csv small_out.csv。out.csv在、root下，生成的表small.csv也在root下。#输出的新生成的数据表。

2025-06-07 16:03:01 310

原创 pyspark统计词频

CENTOS7，spark2.4，python3.8，JDK1.8，pycahrm专业版2023。在pySpark中，统计a.txt文档的词频，进行排序后输出到本地(/root/wc下)假设spark的根目录在/usr/local/spark下。1)在linux中新建a.txt。2)启动pyspark。

2025-06-07 15:14:35 326