自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 收藏
  • 关注

原创 selenium实现dataworks自动化批量创建数据集成任务

心得:所有大量重复性质的工作都可通过程序实现。几乎所有系统的所有应用不论浏览器、pc软件、andriod、ios、linux,理论上都可以实现自动化。越复杂的软件自动化成本越高,面对复杂软件需要考虑自动化开发时间成本和人力手动时间成本的对比。有个任务需要创建800多个dataworks的数据接入任务,手工一个个搞有些对不起自己的手,更加对不起自己的脑子。第一列保存表名字,第二列保存调度周期。使用selenium模拟人的操作路径。点击业务流程,打开存放任务的目录。遍历所有需要创建的任务。

2024-01-31 23:20:56 752

原创 leetcode 67. 二进制求和

转成2个二进制数字相加,之后再转回字符串。

2024-01-15 19:15:00 499

原创 kettle 同步gbase8t数据到mysql时clob类型乱码

使用kettle 同步gbase8t数据到mysql时clob类型乱码。varchar类型不乱码。环境:win10kettle:9.x。

2024-01-15 18:54:06 622

原创 leetcode 66. 加一

分三种情况个位数加1小于10不需要进1,则个位数加一后返回数组即可需要进1。又分为两种情况:1不需要增加最高位,如899 变为900;2需要增加一位,如999变为1000。

2024-01-12 19:30:00 557

原创 58.leetcode 最后一个单词的长度

分三种情况。

2024-01-11 19:30:00 579

原创 Apache Doris安装部署

Apache Doris安装部署全过程

2023-11-19 17:00:00 938

原创 Apache Hive源码阅读环境搭建

下载hive编译源码遇到的问题与解决

2023-11-18 10:51:54 611

原创 数据仓库-数仓架构

数据仓库的架构

2023-11-17 14:01:56 597

转载 康奈尔笔记法

🖋 康奈尔笔记法康奈尔笔记法(Cornell Notes System)是由美国康奈尔大学教授沃尔特·波克发明的一种笔记方法。将笔记纸分为 3 个栏目:笔记、关键词、总结,来高效记笔记,并便于复习巩固知识点。...

2022-06-28 21:00:00 696 1

转载 优秀文档 8 大秘籍——字节跳动

优秀文档 8 大秘籍——字节跳动如何写好一个文档、将信息清晰准确地传递出来,是困扰很多人的难题。字节总结了写文档的 8 大原则和方法。大多情况,文档是工作的一种呈现方式。如果说文档写得好是「表」,那么「里」其实包含了两个层面的问题:在字节跳动,工作不是在已知中重复,而是要不断闯过新的难关。所以如果你感到「无从下手」,不要太慌。试着定义清楚要解决什么问题、收集资料、发散思考,再逐步收敛出结论或观点。完成这一步,我们就可以开始考虑如何呈现和组织信息了。很多 ByteDancer 将文档视作「产品」一样打造。..

2022-06-28 20:15:00 1039

转载 数仓开发过程(开发向)

一、需求调研1 确定需求1.1 业务调研1.2 确定需求2 分析业务过程3 划分数据域(主题域)4 确定维度与构建总线矩阵4.1 确定维度4.2 构建总线矩阵5 明确统计指标原子指标和派生指标二、方案设计1 数据探查2 开发设计2.1 DDL表设计2.2 DML设计2.3 调度设计依赖设计运行周期设置基线设置优先级数据流设计三、数据开发1 代码开发2 单元测试3 代码评审参考资料......

2022-05-05 20:00:00 5372

原创 windows 压缩指定目录下每个目录和文件为zip文件的powershell脚本

某个文件夹下有几十个子文件夹,想要单个压缩每个子文件夹备份到云盘如果手动操作会有点累,尝试写个脚本吧版本适用于win10、win11其他版本未测试一、编写脚本众所周知windows下有两种自带脚本cmd和powershell,微软在主推powershell百度搜索powershell文件压缩找到了Compress-Archive命令查看官方文档中该命令的描述根据文档编写脚本如下# 传入父目录param([string]$PathName)# 遍历该父目录下的所有子目录与文件fore

2022-03-23 11:23:10 2523

原创 数据职业的区别

数据分析师、数据工程师、机器学习工程师的区别。低级与高级的区别。数据分析师转数据工程师所要做的事。数据工程师转机器学习工程师要做的事。

2022-03-11 20:00:00 5243

原创 量化交易简介

这里写目录标题1 是什么2 为什么3 开源量化交易项目中国德国美国4 商业版交易平台5 量化界大佬3.1 先驱者3.2 其他知名人物1 是什么借助数学方法,利用计算机技术进行交易的证券投资技术。一般流程想到一种策略。例如股价大于5日均价则卖出,股价小于5日均价则买入。把策略细化成可操作的步骤用代码实现策略的细化操作步骤检验策略效果用历史数据回测。在历史数据上模拟执行该策略,看经过给定的一段时间之后的收益情况如何。模拟交易。用真实市场数据来模拟执行策略,看经过一段时间之后的收益情况如何。

2022-02-25 20:00:00 1821

原创 《如何阅读一本书》读书笔记

《如何阅读一本书》读书笔记。人终其一生不过是在认识世界和改造世界中来回游荡,本书某种程度上说是在教会我们如何通过书本学习认识世界和改造世界的知识。

2022-02-20 18:03:23 1237

原创 Prometheus+Grafana系统部署,linux、flink的监控与告警

目录版本一、简介PrometheusGrafana二、安装Prometheus1 下载包2 修改配置3 配置使用Systemd管理Prometheus4 启动Prometheus三、安装node_exporter1 下载包2 修改配置3 配置使用Systemd管理node_exporter4 启动Prometheus四、安装Grafana1 添加repo2 安装3 启动4 设置开机启动版本Centos 7.6Prometheus 2.31.1Grafana //todonode_exporter

2022-02-18 17:22:20 6151 15

原创 《欲罢不能:刷屏时代如何摆脱行为上瘾》读书笔记

上瘾行为的原理和解决方法

2022-02-07 21:53:34 2544

原创 Apache Flink写入Clickhouse报错 code: 1002, ip:8123 failed to respond

版本ClickHouse server version 21.12.2驱动版本:0.2.4一、问题1 问题描述flink任务读取kafka消息,处理,写入到clickhouse时报错。Caused by: ru.yandex.clickhouse.except.ClickHouseUnknownException: ClickHouse exception, code: 1002, host: 192.168.66.66, port: 8123; 192.168.66.66:8123 faile

2022-01-18 13:39:09 12187 2

原创 Superset源码阅读(TODO)

我的Superset源码阅读笔记一、搭建环境参考superset 开发环境搭建二、目录结构三、参考资料superset 开发环境搭建Superset GithubSuperset Documentation

2021-11-29 10:56:52 3439 1

原创 Superset 修改logo

修改目标1 进入项目的图片存放路径superset\superset\static\assets\images要替换以下几张图片2 替换图片将自己图片重命名为目标图片覆盖原有图片即可参考资料更改superset用户logo

2021-11-23 11:43:07 1530 1

原创 Apache Superset二次开发环境配置

版本node v16.13.0Apache Superset 1.3.2Anaconda 4.10.1Win10以上软件需要提前安装!!!一、下载源码# 下载源码git clone https://github.com/apache/superset.git# 切换到目标版本,按需自行修改git checkout 1.3.2# 为superset创建一个3.7的python虚拟环境conda create --name py37 python=3.7# 激活环境conda ac

2021-11-12 19:00:00 7695 4

原创 CM6.3.1-CDH6.3.2安装Streamsets3.22.3

版本CM6.3.1CDH6.3.2Streamsets3.22.3Centos7.6一、准备Parcel包1 下载Parcel包打开官方提供的下载地址 下载地址下载Streamsets3.22.3版本的Manifest,Streamsets3.22.3版本的Cloudera Centos7对应的 ParcelRHEL 7、SHA、Custom Service Descriptor (CSD)最大的是RHEL 7大概7个G下载下来的文件共4个,分别是ManifestSTREAMSET

2021-11-05 22:00:00 677 1

原创 Streamsets 安装额外Stage包——CDH6.3.0包报错REST API call error: java.io.EOFException

版本Streamsets3.16.1CDH6.3.2一、问题1 操作通过Streamsets UI安装CDH6.3.0的包报错点击show error2 完整报错内容java.io.EOFException at org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream.read(GzipCompressorInputStream.java:303) at org.apache.commons.com

2021-11-03 16:24:34 392

原创 CDH6.3.2集成Apache Flink1.12.0

目录一、编译Flink1 下载flink源码2 增加maven镜像3 执行编译命令二、编译parcel1 下载flink-parcel2 修改参数3 复制安装包4 编译parcel5 编译csd6 上传文件三、CDH集成1 登录CDH2 进入Parcel操作界面3 分配Parcel4 激活Parcel5 回主界面6 添加服务报错解决参考资料版本:Centos7.6JDK1.8Scala2.11Python2.7Git1.8.3.1Apache Maven3.6.3CDH6.3.2Apach

2021-11-01 20:00:00 2809 15

原创 Apache Flink源码阅读环境搭建

目录1 下载源码2 编译打包3 导入项目4 debug1 下载源码# 下载源码git clone https://github.com/apache/spark.git# flink是用branch区分不同版本的,切换到目标版本 git checkout -b release1.13 remotes/origin/release-1.132 编译打包在项目根目录打开Git Bash运行如下命令# 设置大一点的内存,防止内存溢出export MAVEN_OPTS="-Xmx2g -XX:

2021-09-27 20:22:56 809

原创 Apache Spark基础知识

我的spark学习笔记,基于Spark 2.4.0

2021-09-22 14:53:22 3996 1

原创 Apache HBase基础知识

我的hbase学习笔记

2021-08-29 09:13:56 588 3

原创 Apache Spark源码阅读环境搭建

文章目录1 下载源码2 导入项目3 新建文件4 Debug JavaWordCount遇到的报错1 未设置Master2 模块编译输出路径冲突版本win7jdk 1.8maven 3.6.3scala 2.11.81 下载源码# 下载源码git clone https://github.com/apache/spark.git# 切换到目标版本git checkout v2.4.02 导入项目#mermaid-svg-iY0oiuQsBRWr905j .label{font-fam

2021-08-26 10:52:08 694

原创 PySpark local模式执行读取mongodb报错 Exception: Java gateway process exited before sending its port number

一、报错D:\soft\develop\Anaconda3\envs\py37\python.exe D:/ws/py_ws/minitask_project/etl_park_company/load_artery_data.py2021-08-12 19:36:46,457 - INFO - main start - 48Active code page: 65001Active code page: 65001Error: Missing application resource.Usa

2021-08-12 19:50:30 724

原创 Datax-web 源码阅读记录

Datax-web 源码阅读;搭建Datax-web开发环境可以参考上一篇博客https://blog.csdn.net/qq_39945938/article/details/118335512

2021-08-09 18:46:57 2228

原创 Apache Spark启动spark-sql报错

一、问题安装好spark后,执行spark-sql报错Exception in thread “main” java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT命令./bin/spark-sql报错日志:2021-08-02 15:00:04,213 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin

2021-08-02 16:58:42 2847 3

原创 Apache Spark 编译、打包过程

目录1 下载源码版本:Ubuntu 20.04.2 LTSApache Maven 3.6.3JDK 1.8R 3.1.11 下载源码# 下载源码,推荐这样下载git clone https://github.com/apache/spark.git# 查看所有的tag,每个tag都是一个版本git tag# 切换到指定版本,这里我要编译的版本是2.4.0git checkout v2.4.0...

2021-08-02 09:13:11 1020 3

原创 Apache Atlas 执行导入hive元数据脚本import-hive.sh报错

一、问题一1 问题Apache Atlas 执行导入hive元数据脚本import-hive.sh报错bash import-hive.shCaused by: com.ctc.wstx.exc.WstxParsingException: Illegal character entity: expansion character (code 0x8 at [row,col,system-id]: [3223,96,“file:/opt/soft/apache-hive-3.1.2-bin/conf

2021-07-28 12:04:55 3666

原创 Linux 多版本软件管理工具update-alternatives使用介绍

一、简介update-alternatives 命令用于处理linux系统中软件版本的切换(可以管理任意软件的多个版本,比如Python、JDK等),在各个linux发行版中均提供了该命令,命令参数略有区别,大致一样。二、常用操作1 注册软件第一步是注册,就是告诉版本管理工具,你的某个软件包括哪些版本,都安装到了哪些地方# 注册python2.7update-alternatives --install /usr/bin/python python /usr/bin/python2.7 2#

2021-07-27 07:58:05 749

原创 Apache Atlas 2.1.0编译打包安装记录

目录一、Apache Atlas简介二、编译打包1 打开官网下载源码2 解压3 打包3.1 打包前的准备3.2 执行打包命令3.3 打包报错打包结果三、安装1 移动到安装目录2 启动服务3 启动成功,但没有进程4 单独启动4.1 启动Hbase4.2 启动Solr4.3 启动Atlas4.3.1 启动Atlas后台报错4.3.2 解决后台报错四、官方案例1 运行导入脚本2 查看样例数据3 UI功能介绍3.1 SEARCH(搜索)3.2 CLASSIFICITION(分类)GLOSSARY术语表吐槽参考资料

2021-07-23 18:05:04 1990 11

原创 元数据管理 开源项目技术选型

元数据管理或者叫数据发现服务 开源项目技术选型目录一、元数据管理简介是什么?为什么?二、开源方案介绍Linkedin DatahubApache AtlasNetflix MetacatLYFT Amundsen三、详细对比四、推荐度一、元数据管理简介是什么?元数据(又称字典)是属于数据库本身的一些数据,包含数据库名、数据库字符集、表名、表的大小、表的记录行数、表的字符集、表的字段、表的索引、表的描述、字段的类型、字段的精度、字段的描述等。为什么?可以知道有哪些数据(数据资产地图)可以知道数

2021-07-23 18:04:06 6219 2

原创 windows 端口代理工具netsh interface portproxy使用介绍

一、简介官方文档:netsh interface portproxy 命令作为 IPv4 和 IPv6 网络与应用程序之间的代理 。 可以通过以下方式使用这些命令建立代理服务:发送到 IPv4 配置的其他计算机和应用程序的 IPv4 配置的计算机和应用程序消息。发送到 IPv6 配置的计算机和应用程序的 IPv4 配置的计算机和应用程序消息。发送到 IPv4 配置的计算机和应用程序的 IPv6 配置的计算机和应用程序消息。发送到 IPv6 配置的其他计算机和应用程序的 IPv6

2021-07-23 18:02:52 13175 8

原创 我的学习资料

一个大数据工程师的学习资料;光看不练看完就忘,光练不看练个寂寞!

2021-07-16 19:07:53 701

原创 Datax-web 二次开发环境配置

文章目录0 准备数据库0.1 创建数据库0.2 导入datax-web的sql文件1 下载源码2 idea 打开项目3 配置Maven4 修改datax-admin模块配置4.1 修改pom.xml文件4.2 修改bootstrap.properties文件4.3 修改application.yml文件5 修改datax-executor5.1 修改pom.xml5.2 修改application.yml6 启动项目6.1 启动datax-admin6.2 启动datax-6.3 访问前端的url0 准备

2021-06-29 16:19:59 3870 2

原创 数据服务 开源方案技术选型

一、数据服务简介数据服务对应的是分享数据的能力。数据服务的能力体现为,通过配置的而不是编码的方式将已有数据发布成接口,供数据需求者调用。为什么要用数据服务?为了减少开发周期,提升开发效率。

2021-06-16 21:34:51 4352 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除