![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 56
Hellooorld
这个作者很懒,什么都没留下…
展开
-
带你领略不一样的YARN
初印象YARN是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度。在YARN上不仅可以运行MapReduce程序,还可以运行Spark、FLink等各种计算框架。YARN总体上采用的是Master/Slave架构,它包括ResourceManager和NodeManager,ResourceManager负责对各个NodeManager上的资源进行管理和调度。 ResourceManager(RM) RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由调度器...原创 2021-09-28 18:15:33 · 280 阅读 · 0 评论 -
大数据量去重BitMap喝布隆过滤器
bitmaphttps://www.jianshu.com/p/8d074e8d02aa布隆过滤器https://www.jianshu.com/p/55e1e9dbf0e2转载 2021-09-01 14:28:57 · 222 阅读 · 0 评论 -
BitMapIndex,倒排索引原理,B-Tree索引
Bitmap索引时序数据库从抽象语义上来说总体可以概括为两个方面的基本需求,一个方面是存储层面的基本需求:包括LSM写入模型保证写入性能、数据分级存储(最近2小时的数据存储在内存中,最近一天的数据存储在SSD中,一天以后的数据存储在HDD中)保证查询性能以及存储成本、数据按时间分区保证时间线查询性能。另一方面是查询层面的基本需求:包括基本的按时间线进行多个维度的原始数据查询、按时间线在多个维度...原创 2019-11-12 16:51:48 · 1593 阅读 · 0 评论 -
HDFS权限管理以及ACL介绍
一篇文章搞懂HDFS权限管理HDFS承载了公司内多个部门几十条业务线的几十PB数据,这些数据有些是安全级别非常高的用户隐私数据,也有被广泛被多个业务线使用的基础数据,不同的业务之间有着复杂的数据依赖。因此,如何管理好这些数据的授权,并尽可能自动化低成本的做好权限管理,是很重要的一部分工作。本文系统的描述了HDFS权限管理体系中与用户关联最紧密的授权相关内容,希望通过本文让大家对权限管理有...原创 2019-11-12 16:07:31 · 662 阅读 · 0 评论 -
Presto中的名词解释
presto服务进程presto集群中一共有两种服务器进程:coordinator服务进程和worker服务进程,其中coordinator服务进程的主要作用是:接收查询请求、解析查询语句、生成查询执行计划、任务调度和worker管理。而worker服务进程则执行被分解后的查询执行任务:taskcoordinatorcoordinator服务进程部署于集群中一个单独的节点上,是整个prest...转载 2019-06-24 09:43:45 · 681 阅读 · 0 评论 -
Maven3种打包方式之一maven-assembly-plugin的使用
在Maven中,主要有3个插件可以用来打包:maven-jar-plugin,默认的打包插件,用来打普通的project JAR包;maven-shade-plugin,用来打可执行JAR包,也就是所谓的fat JAR包;maven-assembly-plugin,支持自定义的打包结构,也可以定制依赖项等。我们日常使用的以maven-assembly-plugin为最多,因为大数据项目...转载 2019-06-23 18:22:20 · 80885 阅读 · 0 评论 -
Presto优化
https://blog.csdn.net/FreeFishLy/article/details/79081764很详细写的转载 2019-06-13 16:49:20 · 341 阅读 · 0 评论 -
Spark-Core源码精读(3)、Stage划分算法
Spark中对RDD的操作大体上可以分为transformation级别的操作和action级别的操作,transformation是lazy级别的操作,action操作(count、collect等)会触发具体job的执行,而每个job又会被划分成一个或者多个Stage,后面的Stage会依赖前面的Stage,而Stage划分的依据就是是否为宽依赖(Spark中RDD的依赖关系分成宽依赖和窄依赖...原创 2019-01-13 14:01:07 · 275 阅读 · 0 评论 -
Centos7直接安装mysql(空机器,没有其他的什么下载好的资源解压等操作,直接网络通过网络下载)
首先先确认你的机器是否有自带的mysqlrpm -qa | grep mysql如果发现有,那么将其卸载rpm -e --nodeps 指定上一部出来的结果下面开始安装1. 下载mysql的repo源$ wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm2. 安装mysql-commu...原创 2018-11-29 11:41:05 · 170 阅读 · 0 评论 -
centos7下安装elasticSearch错误总结(单节点模式)
1、首先确定你安装了jdk,版本需要1.8以上2、上传elasticsearchjar包,只需配置一个文件即可修改配置文件config/elasticsearch.yml network.host: 192.168.100.2113、启动测试进入到elasticsearch主目录执行 bin/elasticsearch4、报错os::commit_memory(...原创 2018-11-24 17:42:02 · 337 阅读 · 1 评论 -
spark算子调优
1、MapPartitions提升Map类操作性能spark中,最基本的原则,就是每个task处理一个RDD的partition。1.1 MapPartitions的优缺点MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个tas...原创 2018-11-13 22:32:47 · 152 阅读 · 0 评论 -
JAVA API访问Hbase org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=32
Java使用api访问hbase报错报错:原因:无法解析主机我的hbase主节点是spark1 java代码访问hbase的时候写的是ip结果运行程序报错 不能够识别主机名这时候就会出现错误,程序会通过spark1连接主机 发现连不上 就出这个错误了大家可以看一下本机的:hosts文件 (测试把ip跟机器名称对应上就可以了 为了模仿错误, 我加注释了)...原创 2018-11-21 17:16:07 · 2141 阅读 · 0 评论 -
Linux增加磁盘空间(本例为根/目录)图文
第一步、首先添加虚拟机的内存 之前我的是20G,添加了30个G,现在变成50G了这样还不算完 ,这样只是给虚拟机增加了物理内存,还没有运用到磁盘上,df -h查看磁盘空间 发现还是原来的因为大部分的东西都是在/目录下放置 ,所以本文章增加的是/dev/mapper/vg_demo2-lv_root的磁盘空间第二步、fdisk -l 查看磁盘的信息第三步、...原创 2018-11-20 22:16:18 · 5172 阅读 · 0 评论