自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (6)
  • 收藏
  • 关注

原创 某里巴巴公司,招聘spark技术笔试题

62.大数据和人工智能技术应用于医学领域可以做心脏病的预测等,thalach(心跳)数值作为非常重要的特征参与计算预测的样本数据,进入预测模型训练前需要对样本数据进行简单清洗过滤去除异常值,假设样本数据存放在Hive表中,过滤出thalach数小于200大于10的正常值,表名称为 DWH_test,心跳值字段为 thalach,下面SQL语法正确的是?这体现了大数据分析理念中的( B)。51.HDFS作为大数据主流的存储框架,具备良好的容灾特性,其中多副本是一个主要原因,HDFS默认副本数是?

2025-06-14 19:07:42 876

原创 spark找工作面试题-笔试最多出现的题

42. (判断题)对join操作有两种情况:如果两个RDD在进行join操作时,一个RDD的partition仅仅和另一个RDD中已知个数的Partition进行join,那么这种类型的join操作就是窄依赖。41. (判断题)transformations操作会在一个已存在的 RDD上创建一个新的 RDD,但实际的计算并没有执行,仅仅记录操作过程,所有的计算都发生在actions环节。输出分区数和指定分区数相同,如果没有指定分区数,安装默认的并行级别,默认分区规则是哈希分区。

2025-06-13 13:46:57 476

原创 spark,找工作面试题:在spark中,常用的RDD行动操作API有哪些,请写出并说明?

解答:collect():返回RDD中的所有元素(1分)count():返回RDD中的元素个数(1分)countByValue():各元素在RDD中出现的次数(1分)take():从RDD中返回num个元素,将尽可能访问少的分区(1分)reduce():并行整合RDD中所有数据,操作两个相同元素类型的RDD数据返回一个同样类型的新元素(1分)

2025-06-12 08:51:52 795

原创 找工作常见Spark笔试面试题

就是说MapReduce的Map Task和Reduce Task是进程级别的,而Spark Task则是基于线程模型的,就是说mapreduce 中的 map 和 reduce 都是 jvm 进程,每次启动都需要重新申请资源,消耗了不必要的时间(假设容器启动时间大概1s,如果有1200个block,那么单独启动map进程事件就需要20分钟)应用程序的各个任务正式运行之前,需要将运行环境中的资源全部申请好,且运行过程中要一直占用这些资源,即使不用,最后程序运行结束后,回收这些资源。

2025-06-09 11:02:32 487

原创 CENTOS7 shell截取数据脚本编程

有30000000条数据,该数据为某国2018年第一季度出口贸易数据(数据表明为out.csv),因为数据量太大,所以在进行分析的时候要截取前300000条数据进行分析,截取的数据生成一个新表,取名为small_out.csv,请编写shell脚本完成该任务。最后的$infile > $outfile必须跟在}’这两个字符的后面。3)执行:predeal.sh out.csv small_out.csv。out.csv在、root下,生成的表small.csv也在root下。#输出的新生成的数据表。

2025-06-07 16:03:01 310

原创 pyspark统计词频

CENTOS7,spark2.4,python3.8,JDK1.8,pycahrm专业版2023。在pySpark中,统计a.txt文档的词频,进行排序后输出到本地(/root/wc下)假设spark的根目录在/usr/local/spark下。1)在linux中新建a.txt。2)启动pyspark。

2025-06-07 15:14:35 326

OpenCV入门教程

OpenCV入门教程,可以帮助初学者更好的学习图像识别技术,是一本不可多得的好书

2015-11-30

张龙老师 javaSE课程代码

北京圣思园 张龙老师,风中叶,javaSE课程的全套代码,好不容找到的,给需要的人

2014-09-16

wedo2.0课程,10个教案

乐高wedo2,10套课程,可以使用在乐高教学乐高wedo2,10套课程,可以使用在乐高教学乐高wedo2,10套课程,可以使用在乐高教学乐高wedo2,10套课程,可以使用在乐高教学

2020-10-12

jquery虚拟键盘 jquery.keypad.package-1.2.0

很不错的虚拟键盘,兼容三大浏览器,给做前端的人

2014-09-16

javacv-0.7-cppjars-2.rar

网上的javacv-0.7-cppjars.rar 资源很不好找,找到的要的分数都很高,很不厚道,现在我免费上传一份,这里是javacv-0.7-cppjars-2.rar 要和javacv-0.7-cppjars-1.rar合在一起使用,因为60兆的限制,我只能分两次上传了,勿怪

2015-11-30

javacv-0.7-cppjars-1

javacv-0.7-cppjars资源很不好找,网上有的,要分都很高,很不厚道,现在我免费上传一份,给大家学习使用,这里是javacv-0.7-cppjars-1,还要下载javacv-0.7-cppjars-2,两个压缩文件解压缩合在一起就行了

2015-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除