![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
帅成一匹马
这个作者很懒,什么都没留下…
展开
-
Hash与散列
Hash,一般翻译为散列,或音译为哈希,是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。原创 2021-03-08 16:47:59 · 679 阅读 · 0 评论 -
Kafka常见面试题
事实表每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务所产生的数据,事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性纬度表的主键,而维度表包含事实记录的特性。事实数据表不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与纬度表中对应项的相关索引字段之外的任何数据。 包含在事实数据表中的“...转载 2021-02-21 16:50:38 · 288 阅读 · 0 评论 -
hive实现全自动动态分区
我们在业务中往往会遇到一种情况就是:现有的业务已经有很多的数据堆积,并且需要根据现有的数据以分区的形式来建立数据仓库,这样的话就需要将表中的一个字段作为分区字段,以这个字段的值作为分区的依据。那么就需要动态分区进行处理:首先需要设置参数:...转载 2020-12-17 17:25:48 · 543 阅读 · 0 评论 -
Navicat 闲置时间过长会卡死
1. Hive数据类型Hive支持原始数据类型和复杂类型,原始类型包括数值型,Boolean,字符串,时间戳。复杂类型包括数组,map,struct。下面是Hive数据类型的一个总结:原创 2020-12-16 11:36:39 · 612 阅读 · 0 评论 -
HDFS小文件优化方法
士大夫撒阿所发生的范德萨发送到范德萨发的沙发斯蒂芬增量原创 2020-11-24 10:09:45 · 165 阅读 · 0 评论 -
MapReduce优化方法
Java集合22题原创 2020-11-10 10:26:55 · 313 阅读 · 0 评论 -
Hadoop数据压缩方式选择
Java集合22题这个算是java中的基础题吧,但是不要小看这些题,有一些可能都回答不上来。我发现最近关于底层问题问的越来越多了,这也算一个基本线吧,如果回答不上来就凉凉了。ArrayList 和 Vector 的区别。 说说 ArrayList,Vector, LinkedList 的存储性能和特性。 快速失败 (fail-fast) 和安全失败 (fail-safe) 的区别是什么? hashmap 的数据结构。 HashMap 的工作原理是什么? Hashmap 什么时候进行扩容呢?原创 2020-09-19 12:40:55 · 124 阅读 · 0 评论 -
HBase优化方式
2018和2019年是大数据领域蓬勃发展的两年,自2019年伊始,实时流计算技术开始步入普通开发者视线,各大公司都在不遗余力地试用新的流计算框架,实时流计算引擎Spark Streaming、Kafka Streaming、Beam和Flink持续火爆。最近Spark社区,来自Databricks、NVIDIA、Google以及阿里巴巴的工程师们正在为Apache Spark 3.0添加原生的GPU调度支持,参考(SPARK-24615和SPARK-24579)该方案将填补了Spark在GPU资源的任务原创 2021-01-21 21:13:12 · 158 阅读 · 2 评论 -
Hbase读写流程
NN和2NN工作机制详解:Fsimage:NameNode内存中元数据序列化后形成的文件。Edits:记录客户端更新元数据信息的每一步操作(可通过Edits运算出元数据)。NameNode启动时,先滚动Edits并生成一个空的edits.inprogress,然后加载Edits和Fsimage到内存中,此时NameNode内存就持有最新的元数据信息。Client开始对NameNode发送元数据的增删改的请求,这些请求的操作首先会被记录到edits.inprogress中(查询元数据的操作不会被记原创 2021-01-12 20:08:41 · 136 阅读 · 0 评论 -
HBase基本架构
本节按字母顺序 (A-M) 列出了 Kerberos 命令、Kerberos 守护进程、PAM 框架、GSS 接口、NFS 服务和 Kerberos 库的常见错误消息。备注:下面这些错误有部分是通用的错误,所以解决方法并不一定适用所有场景,具体的解决方案是需要具体分析。不能一概而论。All authentication systems disabled; connection refused原因:此版本的 rlogind 不支持任何验证机制。解决方法:请确保调用的 rlogin.原创 2021-01-12 12:08:14 · 453 阅读 · 0 评论 -
Kafka、Hive、MapReduce中分区的作用
Windows下主机名和IP映射设置如果需要添加域名和IP的对应关系可以在以下地方进行修改。打开系统目录:c:/windows/system32/drivers/etc找到hosts文件,打开hosts文件并在最后面添加一条记录例如:127.0.0.1www.163.com附录:Windows2000操作中Hosts文件的作用很多用户都知道在Window系统中有个Hosts文件(没有后缀名),在Windows 98系统下该文件在Windows目录,在Windows 20...原创 2021-01-24 09:45:10 · 760 阅读 · 0 评论 -
Kafka基本架构
迎战春招,我该准备什么?面试风向或许很多人还在埋头苦刷。但殊不知,SDE的技术面试已经不再向“更难的题”进发。我们搜集了大量在2020年面试的同学反馈资料,面试考题依旧停留在以Medium至Hard难度之间,并没有因为疫情将题目门槛大大提高。题目难度相比往年几乎持平,也没有大范围出现更新,更难的算法知识。相比较之下,近几年开始,面试对于求职者的交流能力提出了更高的要求。如何在面试中准确的提问,以及表达、阐述自己的算法思想,反而成了区别面试者能力的一大因素。恰巧,这又是很多求职者忽略的部分。我们要原创 2021-01-27 16:46:20 · 212 阅读 · 1 评论 -
Flume基本架构
基于以上情况,假如你的目标是能够在2021年找到一份“给sponsorship”的年薪(总)不低于100k的SDE相关工作,那以下是我们给出的建议:首先明确自己的算法能力,要深度掌握面试的必要算法,但不要盲目追求题量。刷题对于人的算法能力提升是显而易见的,但盲目追求数量而不去总结和归类一定是事半功倍。...原创 2021-01-27 16:55:54 · 1643 阅读 · 0 评论 -
DataNode工作机制
oracle按照指定顺序进行排序之前在网上查了下按照指定顺序进行排序的方法,根据charindex来处理排序,但是在oracle发现不行,因为oracle没有charindex函数,然后使用instr代替了charindex,然后又在网上搜了另外一种方实验如下:1.新建表CREATE TABLE BR_DICT(ID number PRIMARY KEY NOT NULL,D_ITEM VARCHAR2(32),D_VALUE VARCHAR2(32),D_TYPE VARCHA.原创 2020-08-30 20:36:31 · 121 阅读 · 0 评论 -
NameNode和SecondaryNamenode工作机制
1、数据集信息数据集形状 (18846,) ================= ========== Classes 20 Samples total 18846 Dimensionality 1 Features text ================= ==========...原创 2020-08-29 21:40:07 · 196 阅读 · 0 评论 -
Shuffle工作流程
什么是磁盘列阵技术?所谓磁盘列阵,它是由多台磁盘存储器组成,是快速、大容量、且高可靠的外存子系统,现在常见的独立冗余磁盘列阵(RAID)就是一种由多块独立磁盘构成的冗余列阵,这里需要注意的是:虽然RAID包含多块磁盘,但是在操作系统下是作为一个独立的大型存储设备出现的,...原创 2020-08-27 21:24:17 · 2000 阅读 · 0 评论 -
HDFS的读写流程
为一个大龄程序员,作为一个全栈程序员,作为一个讲课讲了N久的程序员老师,有必要给大家介绍一下成为一个月薪两万以内的小公司全栈工程师一般情况下需要掌握的技术栈。对于月薪两万,我们要做的第一件事情是把工作范围锁定在北上广深,这样全栈的技术栈才会更加清晰一些。以下所有言论只代表梦想橡皮擦个人思考,可以当真。对于软件开发工程师基本技能,必须要说一句,月薪两万以内在北京,数学水平大概初中级别就可以,英语水平同上。...原创 2020-08-26 11:20:44 · 153 阅读 · 0 评论 -
YARN工作机制
软件与生俱来就是一种独特的服务。我们见到的许多商业软件,其实是省略了针对企业的细密咨询活动的服务。SaaS服务其实是将原本贴心的服务更加产品化而已,它只能在一些通用的领域得到广泛应用,涉及到企业业务的核心的服务,由软件公司提供的SaaS是无法满足的。那么,未来,或者说从现在开始,软件这样的服务,到底会有哪些趋势?会呈现出什么样的特征?对软件公司而言,或者是对于用户而言,它到底有什么样的变化?软件须通透业务逻辑任何一个企业的诞生和发展,都缘于初始的一个朴素理念,或者说是想法、概念。要兑现这个概念,原创 2020-08-18 21:59:21 · 189 阅读 · 0 评论 -
MapReduce工作流程
前景提要最近这段时间的CSDN评论增加很快很快,心思把每一个博客网站的评论都拿下来分析一下,看看自己哪里有不足的地方,看看粉丝们都给我评论了什么,根据粉丝的意愿去继续写博客才是个好的博主啊。...原创 2020-08-13 17:41:07 · 83 阅读 · 0 评论 -
同步和异步消息机制的区别
消息通信的基本方式有两种:1、同步通信两个通信应用服务之间必须要进行同步,两个服务之间必须都是正常运行的。发送程序和接收程序都必须一直处于运行状态,并且随时做好相互通信的准备。发送程序首先向接收程序发起一个请求,称之为发送消息,发送程序紧接着就会堵塞当前自身的进程,不与其他应用进行任何的通信以及交互,等待接收程序的响应,待发送消息得到接收程序的返回消息之后会继续向下运行,进行下一步的业务处理。比如:手机打电话,你的电话拨打出去后会一直等待对方接电话,如果对方不接电话(即不作出响应),你就没法转载 2021-02-05 16:38:11 · 911 阅读 · 0 评论 -
Ganglia的安装与部署
Ganglia的安装与部署一、安装依赖和环境安装httpd服务与phpsudo yum -y install httpd php1安装其他依赖sudo yum -y install rrdtool perl-rrdtool rrdtool-develsudo yum -y install apr-devel1 2安装gangliayum -y install epel-releasesudo yum -y install ganglia-gmetad sudo y转载 2021-02-04 16:11:05 · 442 阅读 · 1 评论 -
hosts文件被删除了如何解决
一、给etc目录授权进入c:\windows\system32\drivers\etc选中etc目录,右键-属性-高级二、恢复hosts文件进入目录C:\Windows\System32\drivers\etc新建hosts.txt,将下面内容复制到hosts.txt中# Copyright (c) 1993-1999 Microsoft Corp.## This is a sample HOSTS file used by Microsof原创 2021-02-04 13:19:44 · 17230 阅读 · 1 评论 -
堡垒机介绍
什么是堡垒机堡垒机,即在一个特定的网络环境下,为了保障网络和数据不受来自外部和内部用户的入侵和破坏,而运用各种技术手段实时收集和监控网络环境中每一个组成部分的系统状态、安全事件、网络活动,以便集中报警、及时处理及审计定责。1、堡垒机是用来解决“运维混乱”的堡垒机是用来干什么的?简而言之一句话,堡垒机是用于解决“运维混乱”的。何谓运维混乱?当公司的运维人员越来越多,当需要运维的设备越来越...转载 2019-10-25 11:52:08 · 215 阅读 · 0 评论 -
视图与存储过程的区别
稍后更新原创 2019-10-23 10:20:24 · 4659 阅读 · 2 评论 -
Spark Shuffle详解
概述Shuffle,翻译成中文就是洗牌。之所以需要Shuffle,还是因为具有某种共同特征的一类数据需要最终汇聚(aggregate)到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单元处理。以最简单的WordCount为例,其中数据保存在Node1、Node2和Node3;经过处理后,这些数据最终会汇聚到Nodea、Nodeb处理,如下图所示。...原创 2019-08-10 16:27:17 · 4488 阅读 · 0 评论 -
Spark架构
概述为了更好地理解调度,我们先来鸟瞰一下集群模式下的Spark程序运行架构图。1.Driver Program用户编写的Spark程序称为Driver Program。每个Driver程序包含一个代表集群环境的SparkContext对象,程序的执行从Driver程序开始,所有操作执行结束后回到Driver程序中,在Driver程序中结束。如果你是用spark shell,那么...原创 2019-08-14 14:50:26 · 114 阅读 · 0 评论 -
思考题: 找到出现次数最多的数
题目说明有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数。题目要求内存限制为2GB。实现思路想要在很多整数中找到出现次数最多的数,通常的做法是使用哈希表对出现的每一个数做词频统计,哈希表的key是某一个整数,value是这个数出现的次数。就本题来说,一共有20亿个数,哪怕只是一个数出现了20亿次,用32位的整数也可以表示其出现的次数而不会产生溢出,...原创 2019-08-09 17:22:21 · 469 阅读 · 0 评论 -
Spark调度模块
概述之前我们提到:Driver 的sc负责和Executor交互,完成任务的分配和调度,在底层,任务调度模块主要包含两大部分:1)DAGScheduler2)TaskScheduler它们负责将用户提交的计算任务按照DAG划分为不同的阶段并且将不同阶段的计算任务提交到集群进行最终的计算。整个过程可以使用下图表示RDDObjects可以理解为用户实际代码中创...原创 2019-08-14 14:49:40 · 151 阅读 · 0 评论 -
数据本地化策略
数据本地化: 数据存储与数据计算都在同一个节点上进行 1.当JobTracker接收到MR任务之后,会去访问NameNode获取要处理的文件信息 2.NameNode将文件信息(包括文件大小,存储位置,切块信息)返回给JobTracker 3.JobTracker收到文件信息之后会将文件进行切片(split中只包含切片信息比如切片起点,切片大小位置等,不包...原创 2019-07-04 16:00:50 · 1923 阅读 · 0 评论 -
Hive中分区表与分桶表的区别
分区表: 创建一个分区,把1张或多张表放入到这个分区中,这样可以在查询时避免进行全表查询,从而提高查询效率,分区表在HDFS上的表现形式是目录.分桶表: 分桶表是一种更细粒度的数据分配方式,可以对一张表的某一列进行分桶,让该列数据按照哈希取模的方式随机、均匀地分发到各个桶文件中。这样一方面可以提高查询效率,另一方面用于数据的抽样,方便进行数据测试。在处理大规...原创 2019-07-23 08:09:44 · 955 阅读 · 0 评论 -
Apache Hadoop与CDH、HDP的比较
一、Hadoop版本综述不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大...转载 2019-08-20 16:46:18 · 10078 阅读 · 0 评论 -
Spark学习_Spark Streaming
Spark Streaming 是什么1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark Streaming 我们主要关注: (1)Spark Streaming 能接受什么数据...转载 2019-08-16 19:03:30 · 113 阅读 · 0 评论 -
Hadoop 各节点负载均衡机制
Hadoop 各节点负载均衡背景:对于HDFS集群,经常长时间的运行,数据量会增趋势性增长,hdfs的使用率会越来越饱和,此时会对hdfs进行扩容,而扩容之后为了提高各个datanode之间的分布式读写效率,必须实现节点之间的负载均衡。另外集群经过大量的delete操作后,各个Datanode上的空间使用率可能会存在比较大的差异,少数使用率过高的Datanode会导致对其的...转载 2019-08-22 19:59:13 · 2314 阅读 · 0 评论 -
如何保证多线程的原子性
原子性定义:原子是世界上的最小单位,具有不可分割性。比如 i=1,这个操作是不可分割的,那么我们说这个操作是原子操作。再比如:i++,这个操作实际是i= i+ 1,包括读取i,i+1,将结果写入内存 三个操作,是可以分割的,所以他不是一个原子操作。非原子操作都会存在线程安全问题,需要我们使用相关技术(比如sychronized)让它变成一个原子操作。一个操作是原子操作,那么我们称它具有原...原创 2019-08-22 16:57:02 · 3360 阅读 · 0 评论 -
spark集群架构
原创 2019-08-01 22:03:46 · 126 阅读 · 0 评论 -
Spark的转换操作(Transformation)和执行操作(Action)详解
对于RDD有两种计算方式:转换操作(返回值还是一个RDD)---也叫懒操作,不是立即执行执行操作(返回值不是一个RDD)---立即执行转换操作(Transformation) (如:map,filter,groupBy,sortBy,join等),转换操作也叫懒操作,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到转换操作时只会记录需要这样的操作,并不会去执行,需要...原创 2019-08-22 11:18:47 · 4354 阅读 · 0 评论 -
hive的优化
1. map side joina. mapJoin的主要意思就是,当连接的两个表是一个比较小的表和一个特别大的表的时候,可以把比较小的table直接放到内存中去,然后再对比较大的表格进行map操作,此时join就发生在map操作的时候,每当扫描一个大的table中的数据,就要去去查看小表的数据,哪条与之相符,继而进行连接。这里的join并不会涉及reduce操作。map端join的优势就是在...原创 2019-08-01 22:03:14 · 95 阅读 · 0 评论 -
MapReduce执行流程
job的执行流程1. 客户端提交一个job任务到JobTracker: hadoop jar xxx.jar2. JobTracker收集环境信息:a. 检测类型是否匹配b. 检测输入/输出路径是否合法3. JobTracker给job分配一个全局递增的jobid,然后将jobid返回给客户端4. 客户端收到jobid之后,将jar包提交到HDFS上5. 准备执行job...原创 2019-07-19 11:38:17 · 335 阅读 · 0 评论 -
kafka消息系统语义
一、概述1. 在一个分布式发布订阅消息系统中,组成系统的计算机总会由于各自的故障而不能工作。在Kafka中,一个单独的broker,可能会在生产者发送消息到一个topic的时候宕机,或者出现网络故障,从而导致生产者发送消息失败。根据生产者如何处理这样的失败,产生了不同的语义:a. 至少一次语义(At least once semantics):如果生产者收到了Kafka broker的确认...原创 2019-05-22 21:57:28 · 657 阅读 · 0 评论 -
数据仓库
1 .数据仓库的基本概念数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因...转载 2019-03-31 20:51:00 · 162 阅读 · 0 评论