![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 81
大数据组件原理和遇到的问题
终回首
只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。
有一分热,发一分光,就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。
此后如竟没有炬火:我便是唯一的光。
展开
-
kettle 同步gbase8t数据到mysql时clob类型乱码
使用kettle 同步gbase8t数据到mysql时clob类型乱码。varchar类型不乱码。环境:win10kettle:9.x。原创 2024-01-15 18:54:06 · 547 阅读 · 0 评论 -
Apache Doris安装部署
Apache Doris安装部署全过程原创 2023-11-19 17:00:00 · 857 阅读 · 0 评论 -
Apache Hive源码阅读环境搭建
下载hive编译源码遇到的问题与解决原创 2023-11-18 10:51:54 · 573 阅读 · 0 评论 -
数据仓库-数仓架构
数据仓库的架构原创 2023-11-17 14:01:56 · 312 阅读 · 0 评论 -
数仓开发过程(开发向)
一、需求调研1 确定需求1.1 业务调研1.2 确定需求2 分析业务过程3 划分数据域(主题域)4 确定维度与构建总线矩阵4.1 确定维度4.2 构建总线矩阵5 明确统计指标原子指标和派生指标二、方案设计1 数据探查2 开发设计2.1 DDL表设计2.2 DML设计2.3 调度设计依赖设计运行周期设置基线设置优先级数据流设计三、数据开发1 代码开发2 单元测试3 代码评审参考资料......转载 2022-05-05 20:00:00 · 4299 阅读 · 0 评论 -
数据职业的区别
数据分析师、数据工程师、机器学习工程师的区别。低级与高级的区别。数据分析师转数据工程师所要做的事。数据工程师转机器学习工程师要做的事。原创 2022-03-11 20:00:00 · 5104 阅读 · 0 评论 -
Prometheus+Grafana系统部署,linux、flink的监控与告警
目录版本一、简介PrometheusGrafana二、安装Prometheus1 下载包2 修改配置3 配置使用Systemd管理Prometheus4 启动Prometheus三、安装node_exporter1 下载包2 修改配置3 配置使用Systemd管理node_exporter4 启动Prometheus四、安装Grafana1 添加repo2 安装3 启动4 设置开机启动版本Centos 7.6Prometheus 2.31.1Grafana //todonode_exporter原创 2022-02-18 17:22:20 · 5061 阅读 · 15 评论 -
Apache Flink写入Clickhouse报错 code: 1002, ip:8123 failed to respond
版本ClickHouse server version 21.12.2驱动版本:0.2.4一、问题1 问题描述flink任务读取kafka消息,处理,写入到clickhouse时报错。Caused by: ru.yandex.clickhouse.except.ClickHouseUnknownException: ClickHouse exception, code: 1002, host: 192.168.66.66, port: 8123; 192.168.66.66:8123 faile原创 2022-01-18 13:39:09 · 11761 阅读 · 0 评论 -
Superset源码阅读(TODO)
我的Superset源码阅读笔记一、搭建环境参考superset 开发环境搭建二、目录结构三、参考资料superset 开发环境搭建Superset GithubSuperset Documentation原创 2021-11-29 10:56:52 · 3157 阅读 · 1 评论 -
Superset 修改logo
修改目标1 进入项目的图片存放路径superset\superset\static\assets\images要替换以下几张图片2 替换图片将自己图片重命名为目标图片覆盖原有图片即可参考资料更改superset用户logo原创 2021-11-23 11:43:07 · 1385 阅读 · 1 评论 -
Apache Superset二次开发环境配置
版本node v16.13.0Apache Superset 1.3.2Anaconda 4.10.1Win10以上软件需要提前安装!!!一、下载源码# 下载源码git clone https://github.com/apache/superset.git# 切换到目标版本,按需自行修改git checkout 1.3.2# 为superset创建一个3.7的python虚拟环境conda create --name py37 python=3.7# 激活环境conda ac原创 2021-11-12 19:00:00 · 7179 阅读 · 4 评论 -
CM6.3.1-CDH6.3.2安装Streamsets3.22.3
版本CM6.3.1CDH6.3.2Streamsets3.22.3Centos7.6一、准备Parcel包1 下载Parcel包打开官方提供的下载地址 下载地址下载Streamsets3.22.3版本的Manifest,Streamsets3.22.3版本的Cloudera Centos7对应的 ParcelRHEL 7、SHA、Custom Service Descriptor (CSD)最大的是RHEL 7大概7个G下载下来的文件共4个,分别是ManifestSTREAMSET原创 2021-11-05 22:00:00 · 626 阅读 · 1 评论 -
Streamsets 安装额外Stage包——CDH6.3.0包报错REST API call error: java.io.EOFException
版本Streamsets3.16.1CDH6.3.2一、问题1 操作通过Streamsets UI安装CDH6.3.0的包报错点击show error2 完整报错内容java.io.EOFException at org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream.read(GzipCompressorInputStream.java:303) at org.apache.commons.com原创 2021-11-03 16:24:34 · 351 阅读 · 0 评论 -
CDH6.3.2集成Apache Flink1.12.0
目录一、编译Flink1 下载flink源码2 增加maven镜像3 执行编译命令二、编译parcel1 下载flink-parcel2 修改参数3 复制安装包4 编译parcel5 编译csd6 上传文件三、CDH集成1 登录CDH2 进入Parcel操作界面3 分配Parcel4 激活Parcel5 回主界面6 添加服务报错解决参考资料版本:Centos7.6JDK1.8Scala2.11Python2.7Git1.8.3.1Apache Maven3.6.3CDH6.3.2Apach原创 2021-11-01 20:00:00 · 2359 阅读 · 15 评论 -
Apache Flink源码阅读环境搭建
目录1 下载源码2 编译打包3 导入项目4 debug1 下载源码# 下载源码git clone https://github.com/apache/spark.git# flink是用branch区分不同版本的,切换到目标版本 git checkout -b release1.13 remotes/origin/release-1.132 编译打包在项目根目录打开Git Bash运行如下命令# 设置大一点的内存,防止内存溢出export MAVEN_OPTS="-Xmx2g -XX:原创 2021-09-27 20:22:56 · 688 阅读 · 0 评论 -
Apache Spark基础知识
我的spark学习笔记,基于Spark 2.4.0原创 2021-09-22 14:53:22 · 1323 阅读 · 1 评论 -
Apache HBase基础知识
我的hbase学习笔记原创 2021-08-29 09:13:56 · 553 阅读 · 3 评论 -
Apache Spark源码阅读环境搭建
文章目录1 下载源码2 导入项目3 新建文件4 Debug JavaWordCount遇到的报错1 未设置Master2 模块编译输出路径冲突版本win7jdk 1.8maven 3.6.3scala 2.11.81 下载源码# 下载源码git clone https://github.com/apache/spark.git# 切换到目标版本git checkout v2.4.02 导入项目#mermaid-svg-iY0oiuQsBRWr905j .label{font-fam原创 2021-08-26 10:52:08 · 469 阅读 · 0 评论 -
PySpark local模式执行读取mongodb报错 Exception: Java gateway process exited before sending its port number
一、报错D:\soft\develop\Anaconda3\envs\py37\python.exe D:/ws/py_ws/minitask_project/etl_park_company/load_artery_data.py2021-08-12 19:36:46,457 - INFO - main start - 48Active code page: 65001Active code page: 65001Error: Missing application resource.Usa原创 2021-08-12 19:50:30 · 660 阅读 · 0 评论 -
Datax-web 源码阅读记录
Datax-web 源码阅读;搭建Datax-web开发环境可以参考上一篇博客https://blog.csdn.net/qq_39945938/article/details/118335512原创 2021-08-09 18:46:57 · 1625 阅读 · 0 评论 -
Apache Atlas 执行导入hive元数据脚本import-hive.sh报错
一、问题一1 问题Apache Atlas 执行导入hive元数据脚本import-hive.sh报错bash import-hive.shCaused by: com.ctc.wstx.exc.WstxParsingException: Illegal character entity: expansion character (code 0x8 at [row,col,system-id]: [3223,96,“file:/opt/soft/apache-hive-3.1.2-bin/conf原创 2021-07-28 12:04:55 · 3307 阅读 · 0 评论 -
Apache Atlas 2.1.0编译打包安装记录
目录一、Apache Atlas简介二、编译打包1 打开官网下载源码2 解压3 打包3.1 打包前的准备3.2 执行打包命令3.3 打包报错打包结果三、安装1 移动到安装目录2 启动服务3 启动成功,但没有进程4 单独启动4.1 启动Hbase4.2 启动Solr4.3 启动Atlas4.3.1 启动Atlas后台报错4.3.2 解决后台报错四、官方案例1 运行导入脚本2 查看样例数据3 UI功能介绍3.1 SEARCH(搜索)3.2 CLASSIFICITION(分类)GLOSSARY术语表吐槽参考资料原创 2021-07-23 18:05:04 · 1686 阅读 · 11 评论 -
元数据管理 开源项目技术选型
元数据管理或者叫数据发现服务 开源项目技术选型目录一、元数据管理简介是什么?为什么?二、开源方案介绍Linkedin DatahubApache AtlasNetflix MetacatLYFT Amundsen三、详细对比四、推荐度一、元数据管理简介是什么?元数据(又称字典)是属于数据库本身的一些数据,包含数据库名、数据库字符集、表名、表的大小、表的记录行数、表的字符集、表的字段、表的索引、表的描述、字段的类型、字段的精度、字段的描述等。为什么?可以知道有哪些数据(数据资产地图)可以知道数原创 2021-07-23 18:04:06 · 5951 阅读 · 2 评论 -
数据服务 开源方案技术选型
一、数据服务简介数据服务对应的是分享数据的能力。数据服务的能力体现为,通过配置的而不是编码的方式将已有数据发布成接口,供数据需求者调用。为什么要用数据服务?为了减少开发周期,提升开发效率。原创 2021-06-16 21:34:51 · 3934 阅读 · 2 评论 -
Apache Hadoop基础知识
我的Hadoop笔记一、背景起源于google的3篇论文中的GFS和MapReduce,作者是Doug cutting,截止到2021-04-07为止,最新的正式版本为3.2.2虽然hadoop最新已经是3.2.2了,但常用的还是hadoop2.x版本,所以本篇笔记仍旧基于hadoop2.x版本二、Hadoop是什么?狭义的hadoop包括HDFS(Hadoop Distributed File System)和MapReduceHDFS是一个分布式文件存储系统,MapReduce是计算框架广原创 2021-04-12 21:55:53 · 1276 阅读 · 12 评论 -
Apache Kylin cube创建过程每一步的优化思路
Apache Kylin 创建cube过程每一步的优化思路。包括创建model的优化思路、创建cube时的优化思路、kylin相关配置文件的优化思路原创 2021-03-14 09:43:16 · 1307 阅读 · 15 评论 -
8.Apache Kylin build cube 报错 Error: java.lang.IllegalArgumentException: Cannot add NaN
1 问题构建cube第9步(#9 Step Name: Build N-Dimension Cuboid : level 2)报错Error: java.lang.IllegalArgumentException: Cannot add NaN2 解决原创 2021-03-12 11:53:27 · 347 阅读 · 2 评论 -
Apache Kylin Build cube 过程详解、遇到的问题与解决过程、优化思路
Apache Kylin的cube的构建过程所做的操作;构建过程中出现过的问题和解决过程;构建过程每一步的优化思路。原创 2021-03-08 19:39:04 · 1111 阅读 · 1 评论 -
1.Clickhouse 快速开始
跟着官网学clickhouse原创 2021-03-02 18:03:04 · 475 阅读 · 1 评论 -
1.OLAP 技术选型 Apache Kylin、Apache Doris、Clickhouse对比
一、功能对比支持用Y表示,不支持用N表示,支持的不好用B表示功能Apache KylinApacheDorisClickhouse标准SQLYYYMysql协议NYN离线导入YYY实时导入YYY聚合查询YYY明细查询BYYAdhoc查询NYY点更新NYN并发YBN分区数据原子重导YNN二、其他对比支持用Y表示,不支持用N表示,支持的不好用B表示对比项原创 2021-02-24 21:20:05 · 9908 阅读 · 5 评论 -
3.Apache Hive 查询报错 FAILED: org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
版本CDH 6.2.0Hive 2.1.1-cdh6.2.0一、问题执行查询视图的sql报错:FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask视图由多个表join生成。sql如下select * from view_test limit 10;日志:Task failed!Task ID: Stage-11Logs:/tmp/hdfs/h原创 2021-01-29 10:59:39 · 1595 阅读 · 2 评论 -
1.Apache Flink 1.12.0 wordcount
Apache Flink wordcountjava案例,scala案例,python案例所有案例都基于win10系统版本JDK:1.8Scala:2.11Python:3.7.4Flink:1.12.0一、Batch Job(批量计算)BatchAPI 一般用于离线计算1 java wordcount1 创建项目我已经创建好,有需要的可以直接下载https://github.com/m769963249/flink_test_java.gitgit clone https://原创 2021-01-27 22:04:00 · 1717 阅读 · 0 评论 -
4.Apache Kylin build cube 第7步 #7 Step Name: Build Base Cuboid 报错 BufferOverflow
一、问题build cube,时间是从20210114000000到20210115000000#7 Step Name: Build Base Cuboid在第7步报错:BufferOverflow! Please use one higher cardinality column for dimension column when build RAW cube!Kylin 版本:apache-kylin-3.0.0-bin-cdh60报错日志:2021-01-22 10:20:33,55原创 2021-01-25 18:03:59 · 879 阅读 · 0 评论 -
1.Hue 中运行oozie工作流执行spark 报错 local class incompatible
一、问题在hue中运行oozie工作流执行spark任务时,报错java.io.InvalidClassException: ; local class incompatible: stream classdesc serialVersionUID = -4485890319152472656, local class serialVersionUID = -7506356125639619411日志:2021-01-15 15:20:09.104 [task-result-getter-0] WAR原创 2021-01-15 21:44:11 · 567 阅读 · 2 评论