大数据
文章平均质量分 85
Interest1_wyt
这个作者很懒,什么都没留下…
展开
-
kylin(一)使用心得
最近做OLAP工作时一直在和kylin打交道,因为kylin相关知识比较多,所以为了加深对kylin的整体理解以及把自己的经验分享给大家,便准备周末写了该文章,正文如下1、kylin概述在讲解kylin之前,先大致说下OLAP和OLTP。OLTP也称联机事务处理,一般指面向传统关系型数据库,实时性要求比较高的事务操作。OLAP也称联机分析处理,一般指面向大数据场景的分析操作。因为二者所应对的数据体量不同,所以其主要的功能和应用场景也不同。OLAP主要是处理大数据,使分析人员能够从各个角度观察信息,目原创 2021-05-09 11:58:01 · 1772 阅读 · 0 评论 -
kylin(二)自定义扩展的类加载问题
在开发完kylin三大框架的扩展代码后,将jar上传放置在kylin中时遇到了一些类加载相关的问题。1、kylin报错NoSuchMethodException信息,即找不到自定义扩展的数据源。2021-08-29 18:08:20,811 ERROR [http-bio-7070-exec-10] source.SourceManager:118 : Failed to create source: SourceType=0java.lang.NoSuchMethodException: com原创 2021-08-29 20:54:53 · 391 阅读 · 0 评论 -
kylin(三)服务端源码启动调试(IDEA+Windos)
前段时间扩展kylin数据源、计算引擎、存储框架功能时,为了追踪kylin后端的处理信息,使用了远程debug功能。即在kylin页面上发起请求,本地下载kylin源码启动后,可以接收原创 2021-06-15 20:39:48 · 471 阅读 · 1 评论 -
kylin(四)元数据初探
1、kylin初始状态下kylin_metadata表信息2、加载样例或者自己建表建模建cube,查看模型和cube在元数据表中的内容3、构建segments,查看元信息表中对应内容4、备份元数据5、删除元数据,测试查询、建模、建cube等操作是否正常,如果有报错,报错信息是什么。另外kylin一般会将元数据刷到内存中。所以删除元数据后各操作可能是正常的,此时可以重启kylin来验证,并记录此时的失败信息。6、使用备份元数据进行恢复,此时再进行各种操作查看是否正常7(引申)、查看cubeid与r原创 2022-01-09 20:44:46 · 1341 阅读 · 0 评论 -
kylin(五)开启dashboard监控面板
kylin开启dashboard监控面板和相关的度量监控数据原创 2022-07-16 20:12:04 · 1165 阅读 · 1 评论 -
kylin(六)sum(max/min/case when)等sum(expression)使用
目前我自己用的版本是3.1.0,默认情况下kylin是不支持sum(expression)表达式的,但是2.4.0版本后通过配置可以开启这个功能。在kylin的安装目录下/conf/kylin.preperties中新增如下配置,开启该功能:## 支持sum(expression)kylin.query.enable-dynamic-column=truekylin.query.is-null-as-zero-in-expression=true...原创 2021-07-04 08:41:22 · 785 阅读 · 0 评论 -
kylin(七)扩展数据源、计算引擎、存储框架源码
前面章节介绍了kylin源码的调试过程,这里讲解下kylin的三大扩展框架,以及对应的编辑方式。原创 2021-08-29 21:39:15 · 576 阅读 · 0 评论 -
spark sql(零)总体介绍
spark sql整体功能以及源码流程和功能扩展介绍原创 2023-03-04 11:06:22 · 681 阅读 · 0 评论 -
spark sql(一)源码分析sql解析流程
spark sql解析sql主要基于Catalyst框架,它将复杂的sql解析分为很多的阶段,如未解析的逻辑计划、解析后的逻辑计划、优化后的计划、物理计划等阶段,且每个阶段都有专门的工具类进行处理。原创 2023-03-04 11:08:49 · 1601 阅读 · 1 评论 -
spark sql(二)sql解析流程扩展
spark sql大体在四个阶段提供了扩展能力,分别是未解析的逻辑计划、解析后的逻辑计划、优化后的逻辑计划、物理计划。在这四个阶段后面我们都可以引入自己的处理逻辑。原创 2023-03-04 11:09:27 · 990 阅读 · 0 评论 -
spark sql(三)逻辑计划解析(analyzer)
简单探究spark sql中analyzer解析库表的源码原创 2023-03-04 11:10:08 · 937 阅读 · 0 评论 -
spark sql(四)物理计划解析
spark sql物理计划执行流程解析原创 2023-05-28 10:38:50 · 1442 阅读 · 0 评论 -
spark sql(五)sparksql支持查询哪些数据源,查询hive与查询mysql的区别
sparksql支持查询的数据源类型,以及查询mysql和查询hive的源码过程简析原创 2023-03-04 11:10:44 · 3568 阅读 · 1 评论 -
spark sql(六)sparksql自定义数据源
sparksql通过DataSourceRegister查找规则实现自定义hbase数据源原创 2023-03-19 00:49:28 · 1902 阅读 · 0 评论 -
spark sql(七)源码解析 - sparksql什么时候将时间类型转换成整型或者长整型,又是什么时候将整型或长整型转为时间类型?
sparksql什么时候将时间类型转换成整型或者长整型,又是什么时候将整型或长整型转为时间类型?原创 2023-04-02 13:48:26 · 711 阅读 · 1 评论 -
hdfs(一)高可用单NameNode从standby恢复为active
hdfs ha集群中,通过新增namenode节点解决单namenode损坏导致集群处于standby状态问题原创 2023-01-22 16:45:40 · 2010 阅读 · 0 评论 -
hdfs(二)高可用单NameNode从standby恢复为active
将高可用hdfs ha降为单namenode可行。如果两个namenode有一个不能用了,紧急情况下就可以通过修改配置的方式将hdfs降低为单namenode的集群继续进行工作。原创 2023-01-22 18:50:45 · 2487 阅读 · 1 评论 -
hive(一) FileFormate 和SerDe的关联关系
一、FileFormatehive数仓和mysql、clickhouse一类的数据库不同,hive表的数据是存储在hdfs文件系统中的,它底层的存储文件可以是多种数据格式,目前hive支持的文件格式有: Text File SequenceFile RCFile Avro Files ORC Files Parquet Custom INPUTFORMAT and OUTPUTFORMAT如果在建表或者更改表时没有显式指定hive要存储成的文件...原创 2022-05-22 08:20:38 · 469 阅读 · 0 评论 -
hive(二)表 desc 描述元信息获取(java hive jdbc)
java hive jdbc一次性获取hive表数据在hdfs中的location位置、或者获取hive的文件存储格式、使用的压缩算法,甚至是表中的字段类型、字段注释、字段约束、表中是否有数据、数据大小、文件数等信息。原创 2022-12-09 21:44:51 · 4908 阅读 · 1 评论 -
doris(一)单节点部署
doris单节点FE BE快速部署原创 2022-10-16 11:06:17 · 4162 阅读 · 1 评论 -
presto(一)源码在IDEA上 运行调试(windows版)
最近在实现presto+kylin功能时,编辑的kylin plugin一直执行有问题,presto server反馈的信息有限,所以就想通过presto源码看下具体问题在哪。在运行presto源码上zhen原创 2021-06-14 12:06:38 · 1794 阅读 · 5 评论 -
clickhouse(一)两分片两副本集群搭建
最近工作中遇到了clickhouse副本存储的问题,所以准备搭建一套clickhouse集群研究下,这里将搭建的过程和遇到的坑记录下,便于以后使用。1、准备三台虚拟机,分别安装clickhouse的服务端和客户端这里的安装过程是纯粹拷贝的官网命令,首先验证虚拟机是否支持clickhouse的安装: grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supporte...原创 2021-08-08 23:36:54 · 3917 阅读 · 0 评论 -
hue(一)编译、启动、使用
hue编译了解、踩坑识别原创 2022-11-20 17:31:40 · 3278 阅读 · 2 评论 -
centos+hadoop+hive+hbase安装教程
此文章主要用于记录安装的流程和大致步骤,所以有些地方不会详细介绍。但是流程会完整介绍。另外之所以再装一套大数据环境,主要是之前的环境由于开发测试和不熟悉导致环境比较乱。所以想再重头搭建一套,并系统的配置整合各个工具,这样无论是个人开发还是学习都能有一套清晰可调的环境使用。一、前期准备1、工具准备vmware:我用的是Vmware 15 pro ,上网搜很多,这里提供一个:http://www.downza.cn/soft/277470.htmlcentos:http://mirrors.aliy原创 2021-06-27 14:51:01 · 593 阅读 · 0 评论