wespten
悦分享
网上搜索资料的朋友,一定都会有这样一个感受,那就是知识点有时太过零散,有时又存在误区,有时又太过简短,而有时又缺乏深度,一个系统又详细的分享小天地,为真正想去学习或了解某些事情的朋友,持续提供有价值且有深度的内容。
展开
-
大数据简历要点与模拟面试和项目介绍模板二
一、自我介绍(目前不知道怎么做)您好,我叫xxx,毕业于xxx学校,因为在大学里学过javase、mysql、web、数据结构与算法等计算机基础知识,在一份软件测试的实习中接触到数据仓库、用户画像、推荐系统等这些概念,让我对大数据非常感兴趣,经过各种了解之后,觉得大数据非常有发展潜力,因此确定要进入发展。原创 2023-02-14 17:48:13 · 2099 阅读 · 0 评论 -
大数据简历要点与模拟面试和项目介绍模板一
1)项目查找查找项目:易观千帆指数 http://zhishu.analysys.cn/应用市场:应用宝、应用汇、豌豆荚、华为、魅族、小米 可选行业:电商、教育、医疗、旅游、电影、小说、新闻 不是很推荐的行业: (工业互联网 物联网) 传统行业工资较低,发展前途也不是很好 (互联网金融) 门槛高,需要有一定的金融知识,对金融一些相关名词比较了解选好app以及公司以后,所有人在班级微信群发起接龙,先到先得,如果有重复的,后面的同学自动换!01 张三:app名称 公司名01 张原创 2023-02-14 16:52:34 · 2427 阅读 · 0 评论 -
大数据岗位面试指导
我叫什么我来自于什么我之前在哪里工作我目前来到贵公司希望应聘什么职位(看到贵公司工作氛围比较好,符合我的工作环境预期)原创 2024-06-14 15:15:22 · 140 阅读 · 0 评论 -
互联网大厂大数据面试真题汇总大全(四)
示例:[1,2,3]期望:[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]学者一 学者二学长14.1.1 一面1)自我介绍叫什么名字,来自哪里,本科哪个学校,硕士哪个学校,大数据做了多长时间,对Hadoop生态圈以及Spark生态圈中的哪些技术比较了解(很简单的一句就带过了),说完大概2min2)技术部分(1)让我介绍下Sqoop,说他没见过我说Sqoop我用的不熟,知道怎么用,可以简单地给他介绍一下。然后就说Sqoop是HDFS、关系型数据、HBase它们三者原创 2024-05-13 08:25:05 · 116 阅读 · 0 评论 -
互联网大厂大数据面试真题汇总大全(三)
感觉面试官比较了解我们公司,问的技术问题不多,杂七杂八的问的不少。原创 2024-05-13 08:24:51 · 109 阅读 · 0 评论 -
互联网大厂大数据面试真题汇总大全(二)
VIVO,好像会根据你的简历侧重,分配岗位,实时或者数仓,做好准备吧,骚年。原创 2024-05-13 08:24:37 · 88 阅读 · 0 评论 -
互联网大厂大数据面试真题汇总大全(一)
学长11)笔试部分(1)有一表名t_sh_mtt_netdisk_log,从表名可以看出该表是什么业务的,是什么周期粒度的表。(2)怎么查看表结构,表创建语句?怎么查看表有哪些分区?怎么查看分区对应hdfs路径?怎么计算某个分区的数据量大小?怎么计算某个分区的文件总数?(3)有一hive sql,怎么计算这个sql会产生多少个map数?(4)怎么查看hive有什么自带函数?怎么查看函数的详细信息?(5)Hive支持哪些基木数据类型?(6)请指出下面两个语句读取分区ds数据的不同Select * from t原创 2024-05-13 08:24:24 · 133 阅读 · 0 评论 -
大数据企业面试真题汇总三
1)Map方法之后Reduce方法之前这段处理过程叫Shuffle2)Map方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓冲区默认大小100m,环形缓冲区达到80%时,进行溢写;溢写前 对数据进行排序,排序按照对key的索引进行字典顺序排序,排序的手段快排;溢写产生大量溢写文件,需要对溢写文件进行归并排序;对溢写的文件也可以进行Com biner操作,前提是汇总操作,求平均值不行。最后将文件按照分区存储到磁盘,等待Reduce端拉取。原创 2023-02-13 19:02:04 · 1352 阅读 · 0 评论 -
大数据企业面试真题汇总二
1)笔试有一张很大的表:TRLOG,该表大概有2T左右CREATE TABLE TRLOG( PLATFORM string,USER_ID int,CLICK_TIME string,CLICK_URL string)row format delimited fields terminated by ‘\t’;数据:PLATFORM USER_ID CLICK_TIME CLICK_URLWEB 12332321 2013-03-21 13:48:31.324 /home/WEB 12332321 201原创 2023-02-13 18:28:11 · 1068 阅读 · 0 评论 -
大数据企业面试真题汇总一
第1题我们有如下的用户访问数据userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/2/218U022017/1/236U012017/2/224要求使用SQL统计出每个用户的累积访问次数,如下表所示:用户id月份小计累积u012017-011111u012017-021223u022017-011212u032017-0188u042017-0133第2题 京东有5原创 2023-02-13 18:32:24 · 1379 阅读 · 0 评论 -
大数据面试必问点与模拟笔试题
1. Kafka架构2. Kafka压测Kafka官方自带压力测试脚本(kafka-consumer-perf-test.sh、kafka-producer-perf-test.sh)。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。3. Kafka的机器数量Kafka机器数量=2*(峰值生产速度*副本数/100)+1。4. Kafka的日志保存时间7天。5. Kafka的硬盘大小每天的数据量*7天。6. Kafka监控公司自己开发的监控器。原创 2023-02-13 13:51:02 · 655 阅读 · 0 评论 -
大数据技术高频面试题汇总
简单的描述,MR程序执行先从InputFormat类说起,由InputFormat负责数据读入,并在内部实现切片,每一个切片的数据对应生成一个MapTask任务,MapTask中按照文件的行逐行数据进行处理,每一行数据会调用一次我们自定义的Mapper类的map方法,map方法内部实现具体的业务逻辑,处理完数据会通过context对象将数据写出到磁盘(此处会经历Shuffle过程,详情请参考下面第七问!!!原创 2023-02-12 21:07:05 · 702 阅读 · 0 评论 -
大数据面试汇总
1)Linux常用高级命令序号命令命令解释1top查看内存2df -h查看磁盘存储情况3iotop查看磁盘IO读写(yum install iotop安装)4iotop -o直接查看比较高的磁盘读写程序5netstat -tunlp | grep 端口号查看端口占用情况6uptime查看报告系统运行时长及平均负载7ps -aux查看进程2)Shell常用工具及写过的脚本1)awk、sed、cut、sort2)用Shell写过哪些脚本(1)集群启动,分发脚本(2)数仓与MySQL的导入导出(3)数仓层级内部的原创 2022-10-08 11:52:04 · 582 阅读 · 0 评论 -
大数据复习笔记
12台物理机:128G内存,8T机械硬盘,2T固态硬盘,20核40线程,戴尔4万多一台。原创 2023-02-14 15:08:38 · 282 阅读 · 0 评论 -
百度T3大数据面试题攻关
在通常情况下,在driver 端定义的变量如果每个 task 函数使用到,会将变量副本传到每个 task 线程,这时候这些变量都是独立的,互不影响。广播变量的好处是减少网络传输,假如在 driver 端定义的变量有10 M,在通常情况下每个 task 如果使用到该变量,会接收到该变量的副本,如果有200个 task,那么有2000M的数据需要进行网络传输,会占用集群内存。它将 driver 端定义的变量广播到每个 executor 节点处,而不是默认情况的传到每个 task 端。这样查找数据就不需要进行。原创 2024-05-22 08:21:32 · 118 阅读 · 0 评论 -
阿里巴巴P7大数据面试题攻关
可以的,使用posexplode1. 数据介绍主要包括三列,分别是班级、姓名以及成绩,数据表名是default.classinfo:2. 单列Explode首先来看下最基本的,我们如何把student这一列中的数据由一行变成多行。这里需要使用split和explode,并结合lateral view实现。代码如下:结果如下:3. 单列Posexplode接下来,我们想要给每个同学来一个编号,假设编号就按姓名的顺序,此时我们要用到另一个hive函数,叫做posexplode,代码如下:这里se原创 2024-05-22 08:03:18 · 137 阅读 · 0 评论 -
大数据数据倾斜高频面试题
公司一:总用户量1000万,5台64G内存的服务器。公司二:总用户量10亿,1000台64G内存的服务器。公司一的数据分析师在做join的时候发生了数据倾斜,会导致有几百万用户的相关数据集中到了一台服务器上,几百万的用户数据,说大也不大,正常字段量的数据的话64G还是能轻松处理掉的。公司二的数据分析师在做join的时候也发生了数据倾斜,可能会有1个亿的用户相关数据集中到了一台机器上了(相信我,这很常见)。这时候一台机器就很难搞定了,最后会很难算出结果。2)hive中数据倾斜。原创 2024-06-13 07:11:39 · 113 阅读 · 0 评论 -
Flink高频面试题
Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。原创 2024-06-14 08:18:08 · 206 阅读 · 0 评论 -
Spark进阶高频面试题
以shuffle为例,伴随着大量的Shuffle写操作,JVM的新生代不断GC,Eden Space写满了就往Survivor Space写,同时超过一定大小的数据会直接写到老生代,当新生代写满了之后,也会把老的数据搞到老生代,如果老生代空间不足了,就触发FULL GC,还是空间不够,那就OOM错误了,此时线程被Blocked,导致整个Executor处理数据的进程被卡住。standby节点要从zk中,获得元数据信息,恢复集群运行状态,才能对外继续提供服务,作业提交资源申请等,在恢复前是不能接受请求的。原创 2024-06-13 08:38:49 · 218 阅读 · 0 评论 -
Spark高频面试题
Spark On Yarn 的优势 1. Spark 支持资源动态共享,运行于 Yarn 的框架都共享一个集中配置好的资源池 2. 可以很方便的利用 Yarn 的资源调度特性来做分类·,隔离以及优先级控制负载,拥有更灵活的调度策略 3. Yarn 可以自由地选择 executor 数量 4. Yarn 支持 Spark 安全的集群管理器,使用 Yarn,Spark 可以运行于 Kerberized Hadoop之上,在它们进程之间进行安全认证。其次,则是从失败恢复的角度考虑。提高join的时间性能。原创 2024-06-13 07:42:22 · 135 阅读 · 0 评论 -
Kafka高频面试题
Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。传统的消息传递方法包括两种:排队:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。发布-订阅:在这个模型中,消息被广播给所有的用户。原创 2024-06-10 07:46:19 · 131 阅读 · 0 评论 -
Hbase高频面试题
Column Family的个数具体看表的数据,一般来说划分标准是根据数据访问频度,如一张表里有些列访问相对频繁,而另一些列访问很少,这时可以把这张表划分成两个列族,分开存储,提高访问效率。整体来说, 通常建议越少越好, 太多的列族会影响我们整个hbase的读写效率,导致读取一行数据需要跨越更多的列族(底层跨越更多的内存页和文件)原创 2024-06-09 18:15:27 · 161 阅读 · 0 评论 -
HiveSQL高频面试题
(10)Hive中有表A,现在需要将表A的月分区 201505 中 user_id为20000的user_dinner字段更新为bonc8920,其他用户user_dinner字段数据不变,请列出更新的方法步骤。(8)考虑到数据安全的需要,需定时将“借阅记录”中数据进行备份,请使用一条SQL语句,在备份用户bak下创建与“借阅记录”表结构完全一致的数据表BORROW_LOG_BAK.井且将“借阅记录”中现有数据全部复制到BORROW_L0G_ BAK中。原创 2024-06-10 07:25:36 · 133 阅读 · 0 评论 -
Hive高频面试题
1)写一个类继承(org.apache.hadoop.hive.ql.)UDF类;2)覆盖方法evaluate();3)打JAR包;4)通过hive命令将JAR添加到Hive的类路径:5)注册函数:6)使用函数;7)[可选] drop临时函数;原创 2024-06-09 09:58:27 · 116 阅读 · 0 评论 -
Flume高频面试题
a)实现 Interceptorb)重写四个方法。原创 2024-05-24 07:09:21 · 169 阅读 · 0 评论 -
Zookeeper高频面试题
CAP法则:强一致性、高可用性、分区容错性;Zookeeper符合强一致性、高可用性!原创 2024-05-24 06:44:20 · 104 阅读 · 0 评论 -
Hadoop高频面试题
1)序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop自己开发了一套序列化机制(Writable),精简、高效。必须实现Writable接口。原创 2024-05-21 07:43:12 · 90 阅读 · 0 评论 -
电力物联网大数据平台架构及应用
随着物联网、互联网+时代的到来,尤其是泛在电力物联网建设的推进,电网数据也呈现出海量、多样性等趋势,挖掘电网数据价值,助力电网服务水平的提升,拓展电网数据的创新应用,成为国网公司的核心引擎及新增长极。在介绍泛在电力物联网的基础上,阐述了电网数据的特征,并提出了泛在电力物联网大数据分析平台架构,探讨了关键技术,最后介绍了泛在电力物联网大数据的潜在应用。......原创 2022-07-20 06:32:51 · 4783 阅读 · 0 评论 -
大数据安全治理平台建设方案
近年来,随着大数据应用的普及,在新基建、智慧城市、云端应用等大背景趋势下,给我们日常生活便来了很多方便,同时也派生出更多网络安全风险。如企业数据泄露、欺诈、数据违规使用,个人隐私泄露以及企业内部各种威胁和潜在风险。数据是宝贵的资源和财富,当数据开始流转起来,数据的价值方能得到体现。当前,越来越多的行业决策开始从业务驱动向数据驱动转变。数据作为企业内部生产要素,能够帮助企业提升最终产品或服务的性能或生产效率,比如引流、效果广告、配送优化等,帮助企业在瞬息万变的市场中做出科学决策。原创 2022-10-14 17:29:20 · 2155 阅读 · 0 评论 -
DSMM数据安全概述
数据安全生命周期分为采集、传输、存储、处理、交换、销毁几个阶段,其中数据处理阶段是整个周期的核心阶段,数据处理安全与否直接关系到整体数据安全。那么今天分享内容就是数据处理安全的相关要求和实现目标。DSMM是Data Security capability MaturityModel的缩写,中文名为数据安全能力成熟度模型。是以2019-08-30 发布,2020-03-01 实施的GB/T 37988-2019 《信息安全技术数据安全能力成熟度模型》为依据的数据安全保护体系。为什么需要管理数据安全随信息技术的原创 2022-07-02 14:32:59 · 1333 阅读 · 0 评论 -
大数据安全概述
随着物联网和云计算技术的兴起,人类社会来到了大数据这样一个机遇与风险并重的时代。无论 是人们日常使用的终端应用,还是为了检测数据的各种传感器都无时无刻的不在产生数据,据统计人 类每年产生250亿字节的数据,这超过了人类自从开始利用计算机之后所产生的数据之和。面临这样的挑战,这样的机遇,新的概念的提出以及新的技术的出现方便了人们的生活,同时带来了许多安全风险,如果我们运用好新的技术,将会创造巨大的价值,但倘若运用不当或被不法分子乱用,将会引起巨大的灾难,因此大数据安全问题也是我们能否在这个时代产生及保护价值的原创 2022-07-04 14:22:47 · 2564 阅读 · 0 评论 -
大数据用户画像实时项目实战
用户画像,英文: User Profile ( 也有少数称: User Portrait 或User Persona)。一句话概念:将用户信息标签化。通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。 1)定位相对于数据仓库而言,用户画像属于“上层建筑”,以数据仓库沉淀的数据为基础,提炼出更有价值的信息。同时用户画像也是一种数据服务,在它之上还有“更高的建筑”,比如推荐系统,营销系统、风控系原创 2022-10-04 23:24:52 · 1878 阅读 · 0 评论 -
大数据FLINK实时数仓项目实战
普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。如此做时效性更好,但是弊端是由于计算过程中的中间结果没有沉淀下来,所以当面对大量实时需求的时候,计算的复用性较差,开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念,对数据处理流程进行规划、分层,目的是提高数据的复用性。 原始数据,日志和业务数据 。根据数据对象为单位进行分流,比如订单、页面访问等等。维度数据。对于部分数据对象进行进一步加工,比如独立访问、跳出行为,也可以和维度进行关联,形成宽表,依旧是明细数据。根据某个主题将原创 2022-10-06 08:26:23 · 7953 阅读 · 1 评论 -
大数据教育平台数仓实时计算实现 附安装包与脚本
数据倾斜为在shuffle过程中,必须将各个节点上相同的key的数据拉取到某节点的一个task来进行,此时如果某个key对应的数据量特别大的话,就会发生数据倾,某个task耗时非常大,那么一个stage的耗时由最慢的task决定,从而导致整个Spark Streaming任务运行非常缓慢。当设置此参数后,Spark Streaming程序在接收到kill命令时,不会立马结束程序,Spark会在JVM关闭时正常关闭Spark Streaming,而不是是立马关闭,即保证当前数据处理完后再关闭。原创 2022-10-07 19:24:25 · 1467 阅读 · 1 评论 -
大数据教育平台数据仓库系统搭建 附安装包与脚本
需求3:基于dws.dws_qz_chapter、dws.dws_qz_course、dws.dws_qz_major、dws.dws_qz_paper、dws.dws_qz_question、dwd.dwd_qz_member_paper_question 合成宽表dw.user_paper_detail,使用spark sql和dataframe api操作。创建EtlDatService清洗类,使用该类读取hdfs上的原始日志数据,对原始日志进行清洗处理,对敏感字段姓名、电话做脱敏处理。原创 2022-10-07 17:50:26 · 1370 阅读 · 0 评论 -
大数据电商数据仓库系统搭建(CDH数仓) 附离线安装包
Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。Cloudera Manager 架构:说明:Cloudera Repository:软件由Cloudera管理分布存储库。(有点类似Maven的中心仓库)Server:负责软件安装、配置,启动和停止服务,管理服务运行的群集。原创 2023-02-08 18:24:06 · 502 阅读 · 0 评论 -
大数据电商数据仓库系统搭建 附离线安装包
UDF函数解析公共字段:创建一个maven工程:hivefunction创建包名:com.yyds.udf。原创 2023-02-08 11:13:51 · 819 阅读 · 0 评论 -
大数据之数据仓库与信息采集平台实战
1)Data Warehouse(数据仓库)数据仓库是一个各种数据(包括历史数据和当前数据)的中心存储系统,是BI( business intelligence ,商业智能)的核心部件。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。2)Business Intelligence(商业智能)商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。为了将数据转化为知识,需要利用原创 2022-09-22 06:29:55 · 1384 阅读 · 0 评论 -
企业级大数据平台架构实战(附实战环境)
property>第一个配置项的含义是开启 HDFS 的权限控制机制,第二个是开启 ACL 精细化控制,添加完毕,重启 HDFS 服务,以使配置生效。1. 最小 ACL 和扩展 ACL如果 ACL 规则与文件、目录权限位完全对应,则称为最小 ACL(Minimal ACL),它们有 3 个 ACL 规则(即 Owner、Group 和 Others 三种类型,由于与传统的 POSIX 权限模型完全对应,因此不需要指定用户名,称为无名规则)原创 2023-08-20 07:47:53 · 402 阅读 · 0 评论 -
CDH-CM大数据管理平台详解 附CDH离线安装包
一般认为,大数据主要具有 四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value), 即所谓的"4V“。volume(大量):目前处理的数据量基本为PB、EB级别velocity(高速):在极短的一段时间内能产出大量数据(秒杀活动等)variety(多样):数据种类比较多,如日志文件、音频、视频、地理位置信息等value(低价值密度):数据本身的价值比较低,通过对数据分析出有价值的东西。原创 2022-10-07 10:17:33 · 2176 阅读 · 0 评论