![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 71
qq_1456507655
这个作者很懒,什么都没留下…
展开
-
Hadoop中的Sequence File文件是什么?【大数据面试题】
问题分析Hadoop可以存储多种文件格式。Sequence File这个格式需要知道。核心答案讲解1.sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。2.可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。3.SequenceFile文件并不按照其存储的Key进行排序存储,SequenceFile的内部类Writer提供了append功能原创 2021-03-15 16:06:56 · 666 阅读 · 0 评论 -
YARN的体系结构的工作流程是怎样的?
掌握了YARN的体系结构后,接下来看一下YARN的工作流程,具体如图1所示。图1 YARN工作流程下面针对图1展示的YARN的工作过程进行介绍,具体如下:(1)用户通过客户端Client向YARN提交应用程序Applicastion,提交的内容包含Application的必备信息,例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。(2)YARN中的ResourceManager接收到客户端应用程序的请求后,ResourceMana..原创 2021-03-15 15:59:41 · 297 阅读 · 0 评论 -
RDD数据丢失后如何恢复?RDD容错机制介绍
RDD是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,当Spark集群中的某一个节点由于宕机导致数据丢失,就可以通过Spark中的RDD进行容错恢复已经丢失的数据。RDD提供了两种故障恢复的方式,分别是血统(Lineage)方式和设置检查点(checkpoint)方式。下面,我们就来介绍一下这两种方式。血统(Lineage)方式,主要是根据RDD之间的依赖关系对丢失数据的RDD原创 2021-03-09 10:02:40 · 1520 阅读 · 0 评论 -
阿里、头条、美团、快手大数据开发岗面试总结
面试背景:从去年10月份开始,陆续面了阿里,头条,美团,快手四家公司的大数据开发岗位,近20场面试面下来挺耗费脑力的,不过结果还行,除了头条外,目前拿到了其他三家的offer,今天把还能记住的题目做个整理,整理是按技术分类的,因为确实记不太清哪一场问了哪些题了。面试感受:头条和快手风格相似,每一面基本都有算法或实现题,算法主要是leetcode easy, middle难度的题,这跟你面试情况有关,可能项目上没有亮点的算法题会出的难一点。笔者刷题不多,也就100多道吧,还好没有遇到太难的算法,不过刷原创 2021-02-01 14:57:18 · 467 阅读 · 1 评论 -
大数据项目实战教程:使用SparkSQL+Hbase+Oozie构建企业级用户画像
大数据项目实战教程,本课程需要有大数据基础(掌握基本大数据组件应用)的人才可以学习哦!市面上全面的大数据教程较少,今天分享给大家的就是一套全面的大数据学习教程,企业级大数据项目:360度用户画像实战本课程采用由浅入深,层层递进的讲解方式, 让你轻松掌握企业级用户画像的使用, 使用SparkSQL+Hbase+Oozie构建企业级用户画像。基于SparkMllib构建数据挖掘模型。课程亮点:1,课程由浅到深,由原理到实践,适合零基础入门学习。2,结合实际案例,培养解决实际问题的能力。大原创 2021-01-25 17:49:08 · 499 阅读 · 4 评论 -
Hadoop安装教程,8大安装目录的内容和作用分别是什么?
Hadoop是Apache基金会面向全球开源的产品之一,任何用户都可以从Apache Hadoop 官网:下载使用。本文将以编写时较为稳定的Hadoop2.7.4版本为例,详细讲解Hadoop的安装。 先将下载的hadoop-2.7.4.tar.gz安装包上传到主节点hadoop01的/export/software/目录下,然后将文件解压到/export/servers/目录,具体指令如下。$ tar -zxvf hadoop-2.7.4.tar.gz -C /export/servers/原创 2021-01-19 14:15:31 · 402 阅读 · 1 评论 -
数仓模型设计有几种?分别是什么?大数据企业级实战-13天玩转千亿级数仓项目免费学!
数仓模型设计有几种?好的数仓项目应看架构以及所用到的模型,维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种小型数据仓库。维度模型是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。维度表示要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别进行分析,或按区域分析。这样的按..分析就构成一个维度。上原创 2021-01-08 14:22:40 · 281 阅读 · 0 评论 -
大数据在零售供应链管理方面的应用
大数据在零售供应链管理方面的应用,零售商可通过多种方式使用大量信息来改善其零售供应链,分析解决方案将供应商的实际绩效与其关键绩效指标进行比较,帮助供应商在按时交货、提升客户满意度等。随着客户转向在线商务,冠状病毒疫情彻底颠覆了商业模式。这促使许多零售商寻求更多依靠大数据的创新电子商务营销模式。零售商正努力跟上不断增长的在线购物需求。零售商在保持供求关系方面的工作量巨大,但新技术和新工具可以在这个领域带来巨大的变化。利用大数据和分析技术,零售商可以更容易地优化供应链。大数据改善零售供应链管理:一、原创 2021-01-06 17:11:17 · 463 阅读 · 0 评论 -
HDFS读写流程介绍,HDFS读数据和写数据的原理是什么?
Client(客户端)对HDFS中的数据进行读写操作,分别是Client从HDFS中查找数据,即为Read(读)数据;Client从HDFS中存储数据,即为Write(写)数据。下面我们对HDFS的读写流程进行详细的介绍。假设有一个文件1.txt文件,大小为300M,这样就划分出3个数据块,如图1所示。 图1 文件划分情况 下面,我们借助图1所示的文件,分别讲解HDFS文件读数据和写数据的原理。 1.HDFS写数据原理 在我们把文件上传到HDFS系统中,HDFS究竟是如何存储..原创 2020-12-04 11:30:56 · 1163 阅读 · 0 评论 -
阿里提出「数据中台」,2小时带你深度剖析!
自从阿里提出中台的概念后,近年来业务中台、数据中台、AI中台等有关中台的名词相继涌现,相关概念如雨后春笋一般应运而生。数据本身在企业数字化转型的历程中,成为了企业重塑业务,自我转型的决定性因子。在这个背景下,企业需要一个源源不断的输出数据服务,数据洞察的能力源泉,数据中台的出现就成了顺理成章的事情。阿里数据技术和产品部门的负责人曾说过:“很多人会把数据比作石油,马云也说过,阿里巴巴要成为全球电子商务的水电煤。我们现在搭建的数据中台,就是希望扮演发电厂的角色。”数据中台绝对不等于数据平台,差别之一就在原创 2020-09-03 17:08:44 · 181 阅读 · 0 评论 -
大数据教程,大数据实战教程,大数据教程电信信号强度诊断项目实战
课程亮点: 1、系统的设计方法是采用面向对象的设计。本系统前端页面交互主要采用B/S的结构,采用MVC及流式数据的设计思路进行规划设计。 2、前端数展现使用Echarts技术。与地图相关的报表使用百度地图提供的API。 3、后端实时数据,实时接入mysql。为了不影响线上系统的正常使用,同时能够将数据发送到大数据平台,本项目使用Canal来解析实时数据,Flume收集数据并数据发送到实时计算业务流程和离线计算两个流程中。实时数据处理流程...原创 2020-06-17 16:33:28 · 346 阅读 · 0 评论 -
每年春节被黄牛坑,只因你不了解这个技术!大数据反爬虫系统!
每年春节,最害怕的就是自己没有抢到回家的票,不能和家人团聚。有时为了能回家,还得从黄牛那高价购票。那值得思考的事情来了,为什么我们自己抢不到票,但是黄牛却能手握大把的车票呢?这就得说到“爬虫技术”。爬虫消耗系统资源,但是却没有转化成销量,导致系统资源虚耗,严重时会造成系统波动,影响正常用户访问购票。随着我们的生活、工作越来越多的线上化、数字化,线上数据也越来越多,为了限制伪装技术越来越强的爬虫访问和恶意占座行为,就需要我们的反爬虫技术。目前我国反爬虫人才稀缺,随之而来的是..原创 2020-06-05 14:13:33 · 466 阅读 · 0 评论 -
史上最全面的Hadoop入门教程,10天全集发布!
网易云音乐给我推荐的歌单太好听了,我要循环八百遍!淘宝给我推荐的这款假发太适合我了,刚好最近脱发严重!!抖音今天的推送不错,都是我喜欢看的,赶紧点赞~……我们时而欣喜这些软件都能知道我们的喜好,时而又感觉自己的行为被监视了,这种喜忧参半的情绪背后,就是大数据技术的挑逗。大数据技术入门很简单是不是觉得大数据很迷很难懂?其实不然,通过下面这个免费课程,你将从零开始搭建Hadoop集群环境,学习HDFS、MapReduce、Yarn、Hive等Hadoop技术,黑马程序员团队老师.转载 2020-05-27 14:44:12 · 402 阅读 · 0 评论 -
大数据教程,Scala学习教程,教你轻松学会scala
大数据属于多语言开发应用, 其中就包含Scala,想学习大家,Scala学习是必不可少的,那么如何学习Scala呢?今天就为大家推荐一套免费的Scala学习教程!零基础学习使用Scala,了解语言简介,环境配置,学习基础语法, 面向对象编程思想, 函数式编程思想, 集合, 并发编程框架,通过知识点 + 案例教学法帮助小白快速掌握Scala大数据教程轻松学会scala资料:https://...原创 2020-05-07 16:44:00 · 187 阅读 · 0 评论