- 博客(6)
- 资源 (6)
- 收藏
- 关注
原创 某里巴巴公司,招聘spark技术笔试题
62.大数据和人工智能技术应用于医学领域可以做心脏病的预测等,thalach(心跳)数值作为非常重要的特征参与计算预测的样本数据,进入预测模型训练前需要对样本数据进行简单清洗过滤去除异常值,假设样本数据存放在Hive表中,过滤出thalach数小于200大于10的正常值,表名称为 DWH_test,心跳值字段为 thalach,下面SQL语法正确的是?这体现了大数据分析理念中的( B)。51.HDFS作为大数据主流的存储框架,具备良好的容灾特性,其中多副本是一个主要原因,HDFS默认副本数是?
2025-06-14 19:07:42
876
原创 spark找工作面试题-笔试最多出现的题
42. (判断题)对join操作有两种情况:如果两个RDD在进行join操作时,一个RDD的partition仅仅和另一个RDD中已知个数的Partition进行join,那么这种类型的join操作就是窄依赖。41. (判断题)transformations操作会在一个已存在的 RDD上创建一个新的 RDD,但实际的计算并没有执行,仅仅记录操作过程,所有的计算都发生在actions环节。输出分区数和指定分区数相同,如果没有指定分区数,安装默认的并行级别,默认分区规则是哈希分区。
2025-06-13 13:46:57
476
原创 spark,找工作面试题:在spark中,常用的RDD行动操作API有哪些,请写出并说明?
解答:collect():返回RDD中的所有元素(1分)count():返回RDD中的元素个数(1分)countByValue():各元素在RDD中出现的次数(1分)take():从RDD中返回num个元素,将尽可能访问少的分区(1分)reduce():并行整合RDD中所有数据,操作两个相同元素类型的RDD数据返回一个同样类型的新元素(1分)
2025-06-12 08:51:52
795
原创 找工作常见Spark笔试面试题
就是说MapReduce的Map Task和Reduce Task是进程级别的,而Spark Task则是基于线程模型的,就是说mapreduce 中的 map 和 reduce 都是 jvm 进程,每次启动都需要重新申请资源,消耗了不必要的时间(假设容器启动时间大概1s,如果有1200个block,那么单独启动map进程事件就需要20分钟)应用程序的各个任务正式运行之前,需要将运行环境中的资源全部申请好,且运行过程中要一直占用这些资源,即使不用,最后程序运行结束后,回收这些资源。
2025-06-09 11:02:32
487
原创 CENTOS7 shell截取数据脚本编程
有30000000条数据,该数据为某国2018年第一季度出口贸易数据(数据表明为out.csv),因为数据量太大,所以在进行分析的时候要截取前300000条数据进行分析,截取的数据生成一个新表,取名为small_out.csv,请编写shell脚本完成该任务。最后的$infile > $outfile必须跟在}’这两个字符的后面。3)执行:predeal.sh out.csv small_out.csv。out.csv在、root下,生成的表small.csv也在root下。#输出的新生成的数据表。
2025-06-07 16:03:01
310
原创 pyspark统计词频
CENTOS7,spark2.4,python3.8,JDK1.8,pycahrm专业版2023。在pySpark中,统计a.txt文档的词频,进行排序后输出到本地(/root/wc下)假设spark的根目录在/usr/local/spark下。1)在linux中新建a.txt。2)启动pyspark。
2025-06-07 15:14:35
326
wedo2.0课程,10个教案
2020-10-12
javacv-0.7-cppjars-2.rar
2015-11-30
javacv-0.7-cppjars-1
2015-11-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅