大数据
文章平均质量分 92
熊與猫v
这个作者很懒,什么都没留下…
展开
-
数据中台概念及设计
中台是阿里提出,源于在2015年年中时,参观了一家芬兰的游戏公司,叫做Supercell。这家公司一年光是利润就有15亿美金,不过员工人数非常少,只有不到200个人,而且公司里每一个开发游戏的小团队,都只有六七个人而已。这么小规模的团队,怎么做成了这么大的业务呢?其中一个原因是他们把游戏开发过程中,要用的一些通用的游戏素材和算法整理出来,把这些作为工具提供给所有的小团队。同一套工具,可以支持好几个小团队研发游戏。这种管理方式,就是一个“中台”的模型。正在上传…重新上传取消业务中台:简单来说,就是企业级功能复原创 2022-06-20 20:29:35 · 3108 阅读 · 0 评论 -
Spark UI 参数解读
SparkUI其实是伴随作业运行时候会启动一个网页,我们访问网页就可以打开,链接其实在启动的时候日志里面会打印出来,比如说我的地址:一般端口是4040,地址是Driver所在的地址,实际在公司里面呢,也会在日志里面输出这个地址,因为历史的信息是存在history服务器上面的,地址其实是会变化,但是不管如何都会在你作业上面输出的,如果没有就找公司平台开发人员提需求要他们改成有即可不改好的话可以直接说他们技术不行,给他们精神压力。我是比较鼓励大家去官网查看一些信息的,参考 Cluster Mode Overv转载 2022-06-13 03:31:48 · 918 阅读 · 0 评论 -
几张图看懂列式存储
1 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表:Ø Row-based storage stores atable in a sequence of rows.Ø Column-based storage storesa table in a sequence of columns.下面来看一个例子:从上图可以很清楚地看到,行式存..转载 2021-09-17 18:12:36 · 1246 阅读 · 0 评论 -
ClickHouse深度揭秘
简介:ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。引言ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。目前国内社区火热,各个大厂纷纷跟进大规模使用:今日头条内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB左右。腾讯内部用ClickHouse做游戏数据分析,并且为之建立了一整套监控运维体系。携程内部从18年7月份..转载 2021-09-16 18:55:35 · 335 阅读 · 0 评论 -
Hive调优
1、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算例如:select * from score;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台在hive-default.xml.template文件中 hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapredu原创 2021-09-15 03:37:22 · 269 阅读 · 0 评论 -
Hive的常用函数
1 系统内置函数1.查看系统自带的函数hive> show functions;2.显示自带的函数的用法hive> desc function upper;3.详细显示自带的函数的用法hive> desc function extended upper;2 数值计算1、取整函数: round语法: round(double a)返回值: BIGINT说明: 返回double类型的整数值部分 (遵循四舍五入)hive> select round(3.141原创 2021-09-15 03:35:15 · 161 阅读 · 1 评论 -
数据仓库和hive的概念
一、数据仓库概念1.1 数据仓库的基本概念数据仓库的英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持的目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。1.2 数据仓库的主要特征数据仓库是面向主题的(Subject-Orien原创 2021-09-08 01:58:27 · 686 阅读 · 0 评论 -
HDFS的NameNode和SecondaryNameNode功能剖析
1. namenode与secondaryName解析NameNode主要负责集群当中的元数据信息管理,而且元数据信息需要经常随机访问,因为元数据信息必须高效的检索元数据信息保存在哪里能够快速检索呢?如何保证元数据的持久安全呢?为了保证元数据信息的快速检索,那么我们就必须将元数据存放在内存当中,因为在内存当中元数据信息能够最快速的检索,那么随着元数据信息的增多(每个block块大概占用150字节的元数据信息),内存的消耗也会越来越多。如果所有的元数据信息都存放内存,服务器断电,内存当中所有原创 2021-09-04 16:55:44 · 242 阅读 · 0 评论 -
HDFS的读写流程
一,hdfs的读写流程1. hdfs的写入流程文上传流程如下: 创建文件: ①HDFS client向HDFS写入数据,先调用DistributedFileSystem.create() ②RPC调用namenode的create(),会在HDFS目录树中指定的路径,添加新文件;并将操作记录在edits.log中 namenode.create()方法执行完后,返回一个FSDataOutputStream,它是DFSOutputStream的包装类 建立数据流管道pipel.原创 2021-09-04 16:44:24 · 931 阅读 · 0 评论 -
一文详解hadoop集群搭建
一、准备准备一台内存最少8G(建议16G)、cpu i7 4核的电脑二、目录安装虚拟化软件VMware准备3台linux虚拟机搭建3节点的hadoop集群四、知识要点VMware版本:VMware建议使用比较新的版本,如VMware 15.5关于VMware的安装,直接使用安装包一直下一步安装即可,且安装包当中附带破解秘钥,进行破解即可使用linux版本linux统一使用centos7.6 64位版本种子文件下载地址:http://mirrors.aliyun原创 2021-08-29 00:23:23 · 351 阅读 · 1 评论 -
HDFS常用命令及优缺点
1,hdfs的shell命令操作 HDFS命令有两种风格: hadoop fs开头的 hdfs dfs开头的 两种命令均可使用,效果相同 1. hdfs常用命令 如何查看hdfs或hadoop子命令的帮助信息,如ls子命令 hdfs dfs -help lshadoop fs -help ls #两个命令等价 查看hdfs文件系统中指定目录的文件列表。对比linux命令ls hdfs dfs -ls /hadoop fs原创 2021-08-05 02:02:28 · 410 阅读 · 0 评论