自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (6)
  • 收藏
  • 关注

原创 docker k8s 命令总结

迪答数据数据分析从入门到进阶的必看书单!文末附所有200本书籍的PDF下载。

2023-07-24 17:45:37 775

原创 markdown文件语法总结

markdown文件语法总结

2023-02-16 09:45:41 198 1

原创 开发工具快捷键总结

查看一个类所有的方法:alt + 7。SQL格式化:ctrl+alt+L。

2023-02-08 15:35:35 239

原创 DolphinScheduler实现python任务调用资源文件

如何实现python任务调度资源文件1.首先已经上传了对应的脚本资源文件2.引用资源文件 也可以参考博客:dolphinscheduler-2.0.5 Python任务使用记录(资源栏位)

2022-12-05 10:16:31 1748 4

原创 k8s 资源管理及查看命令

在 Kubernetes 中创建工作负载时,您可以为 Pod 中的每一个容器指定其所需要的内存(RAM)大小和 CPU 数量。如果这些信息被指定了,Kubernetes 调度器可以更好的决定将 Pod 调度到哪一个节点。对于容器来说,其所需要的资源也将依据其指定的数值得到保证。

2022-11-23 17:58:00 10966

原创 python 通过k8s API采集k8s 集群信息

【代码】python 通过k8s API采集k8s 集群信息。

2022-11-22 18:34:41 851

原创 python 操作使用笔记

【代码】python 操作使用笔记。

2022-11-07 11:11:33 96

原创 idea 快速定位类所在项目路径(那个包下)

idea源码使用技巧

2022-09-03 10:09:11 1509 1

转载 python 读取excel文件(xls 和xlsx)的一些异常处理

File "/usr/local/lib/python2.7/dist-packages/xlrd-0.9.4-py2.7.egg/xlrd/compdoc.py", line 418, in _locate_stream raise CompDocError("%s corruption: seen[%d] == %d" % (qname, s, self.seen[s]))xlrd.compdoc.CompDocError: Workbook corruption: seen[2] == 4

2022-07-23 20:14:12 2653

原创 DorisSQL 语法使用汇总

DDL语句1.修改字段注释,字段类型alter table dev_dws.dws_transaction_data_h modify column order_cnt bigint comment '下单单数'

2022-07-21 16:21:34 2278

原创 Flink SQL 实现读写redis,并动态生成Hset key

Flink SQL 实现读写redis,并动态生成Hset key

2022-07-04 17:45:06 2787 1

原创 Flink CDC mongoDB 使用及Flink sql解析monggo中复杂嵌套JSON数据实现

Flink CDC mongoDB 使用及Flink sql解析monggo中复杂嵌套JSON数据实现

2022-06-29 19:32:04 3011

原创 spark 写入doris太慢方案解决

最近公司用到了spark读写doris,因为doris其实就是mysql协议,在读取数据时候速度还是可以的,但是写入时候就发生了数据写入特别慢,几千条的数据甚至要用几十分钟,这不是可以接受的。经过调研查询发现因为连接参数没有指定,数据都是单条写入,改造前写入方式: userLogDF .write .format("jdbc") .mode(SaveMode.Append) .option("dr

2022-05-23 16:50:50 1212 1

原创 spark读写Doris实现及Doris文档更新

了解spark读写doris两种方案实现及doris官方文档更新介绍,更多埋点会话id切分文章参考

2022-05-08 16:51:45 6275 1

原创 k8s总结记录

k8s使用笔记总结

2022-04-11 15:21:01 108

原创 Docker常用命令总结及Docker与微服务零基础到精通学习框架资料整理

docker命令学习,及学习框架梳理资料获取

2022-04-11 14:44:44 550

原创 Doris对接消费kafka数据方案实现

doris对接kafka,消费kafka数据到doris中方案实现

2022-04-09 16:22:42 8313

原创 Doris 开发实践建表,模型选择,分区使用,函数使用问题汇总

Doris实践使用建表,模型选择,分区使用,分桶使用,各内置实践函数问题总结

2022-04-05 15:20:06 2156

原创 Doris为数据分析而生的olap数据库:数据模型和数据分区使用详解

Doris数据模型和数据分区使用详解,实现Doris动态分区

2022-04-04 22:04:49 4377

原创 Flink task故障失败恢复策略详解及对应参数、代码配置

Flink任务执行过程中经常会出现由于网络或者内存等原因导致某些task失败,这时就需要我们配置对应的task故障恢复,也就是重启策略来保障某个子task失败可以自动恢复过来而不影响导致整个flink job任务失败。Flink的故障恢复有四种方式:重启策略分为:固定延迟重启策略、故障率重启策略、无重启策略、后备重启策略;

2022-03-20 18:48:25 3878

原创 mysqlbinlog文件解析为对应的SQL语句详解

公司数仓中对于订单表这种实事表的数据因为是通过flinkCDC同步mysql的中的业务数据,其中有数据出现数仓和业务库中的数据偏差,需要通过解析原始mysql中的binlog文件来确定数据不一致的原因在哪里。1.SQL语句查询show...

2022-03-13 23:00:51 11115

原创 任务调度数据质量之通过企业微信监控预警

企微微信群历史任务实时任务调度失败预警

2022-02-24 20:31:33 831

原创 大数据知识框架体系总结梳理

大数据框架梳理总结,可以先收藏一下,毕竟是要不断更新的,防止想看的时候找不到了。

2022-02-19 15:03:06 1945

原创 Flink SQL使用jdbc连接数据库参数配置及注意事项

Flink SQL 通过jdbc连接表的DDL语句create table deal_mysql(tenant_id String,shop_id String,pay_amt decimal(19, 2),pay_qty double,sku_code String,category_code_b string,write_time timestamp,dt Date,primary key (tenant_id,sku_code) not enforced)with('con

2022-02-09 19:19:36 9023 1

原创 用户画像打标签之RFM客户价值分析

RFM模型是衡量用户价值的重要工具和方法, RFM模型主要由3个基础指标组成: (1) 最近一次消费(Recency) , 是指用户上一次购买时间; (2) 消费频率(Frequency) , 是指用户在一定时间段内的消费次数; (3) 消费金额(Money) , 是指用户在一定时间段内累计消费的金额。 这3个基础指标进行组合可以划分出8类人群, 如表4-1所示。表4-1 RFM用户价值模型在开发对应的标签前需要进行数据调研。 根据对数据仓库中拉取的用户消费相关数据进行分析后得出用户这3个

2022-01-26 11:18:33 2800

原创 大数据框架命令使用总结记录

大数据组件命令最全总结

2022-01-21 16:16:54 2506

原创 Flink cdc使用及参数设置

FLInk sql cdc 监听mysqlbinLog以及代码监听,和对应的参数设置,过滤掉数据库的删除操作

2022-01-20 20:06:52 9170

原创 clickhouse中bitmap在用户标签,访客去重生产中使用及clickhouse建表null值数据类型处理

clickhouse bitmap的使用,和在用户去重和标签的生产实践,及bitmap join的相关测试

2022-01-15 12:11:00 4768

原创 FlinkSQL详细系统的全面讲解及在企业生产的实践使用

FlinkSQL中mysql,kafka,Clickhouse数据源对接,实时流表关联维度表,CDC的使用,FlinkSQL写入clickhouse两种方式实现,FLINkSQL全面详解,解析flinkSql解析JSON数据,访问量和订单金额统计生产实践

2022-01-10 20:57:37 3255

原创 用户行为数据会话(session)切割及spark读写clickhouse完整实现

用户数据统计中会话切割实现,spark读写clickhouse及SQL方式实现session切割

2021-12-23 10:45:11 2003

原创 clickhouse中使用arrayjoin进行数据补全

clickhuose-arrayJoin函数在业务补充数据中的使用

2021-11-30 18:17:34 2252

原创 sparkSQL读取 MongoDB 中存储的嵌套JSON数据,并解析写入hive中

七夕之下,我却独自在此晚写下这一《spark读取MongoDB数据文章》,奈若何,奈若何.....

2021-08-14 22:59:07 943

原创 Python数据类型及相关方法使用,建议可以收藏一下

了解Python相关数据结构,及相关的操作方法,可以先收藏一下,需要的时候参考

2021-06-24 22:45:42 149

原创 Flink学习路径及方法攻略

Flink作为新一代的大数据分布式的计算引擎,具有更快的计算速度,更好的实现了数据的式处理,更有阿里团队在大力的推荐Flink的开发,所以学习Flink对于大数据行业来说是十分必要的;学习它是为了在实际工作中用到,那具体要学习Flink中的那些内容呢,下面来列举一下:学习内容一、基础篇1.了解flink的基本特点:流和批的思想、事件驱动、分层API等2.各个特点应用的场景,数据管道应用3.Flink的集群安装,及本地运行模式,yarn模式,Standalone模式等的区别和特点4.idea导入

2021-05-27 21:19:44 900

原创 spark WebuI查看spark作业的执行情况

我们在集群上运行了spark作业怎么看执行情况,作业执行时间,用到的那些算子,job具体的阶段划分等等信息,其实官方就已经很好的给我提供了这些信息查看的方式web界面;先来说一下实际中用到的这个解决的问题,工作中因为我要通过hive来进行数据分析,而用到的引擎就是spark,其中我用到了hive的自定义udf函数实现查到的数据发往kafka,但是因为不知道底层hive转换为spark的什么算子来执行,如果像collect算子,top等算子就会造成数据全部拉到driver端处理,就容易造成内存溢出,所以最

2021-05-22 16:00:42 2155

原创 面试造火箭不一定就是不合理的

分享一下最近的工作经历和感受公司最近在做新的项目,我现在要独立的负责项目的一部分功能,这次就让我有点体会到了为什么面试要造火箭(工作过的人应该都有感到面试造火箭,工作拧螺丝的体验吧),因为项目需要我要写一个程序实现一个功能,大体的算法逻辑就是:类似就是实现给一个任意大小的数组a,以及一个任意大小的整数b,要循环遍历数组,每次输出打印b个数组元素,最后一次的打印的元素个数小于等于b当时就是感觉实现很简单,可是就是实现不了其中的逻辑,一直出现各种问题,用了好久才把程序调试通过,那一刻我内心的突然产生的

2021-05-21 19:39:13 121

原创 CDH中将hive计算引擎调整为spark及hive引擎设置相关命令

CDH中将hive计算引擎调整为spark1.在CDH的hive中搜索配置参数:hive.execution.engine2.第一步仅仅是修改的jdbc,也就是beeline远程连接时候计算引擎修改为hive,还需修改hive-site.xml中的hive.execution.engine配置文件为spark<!--Hive执行引擎--><property> <name>hive.execution.engine</name> &lt

2021-05-14 20:52:23 3528 2

原创 HashMap和Hashtable的区别

HashMap和Hashtable的区别1.线程安全HashMap是线程不安全,但是处理速度快,Hashtable线程安全,但是相对处理速度慢,主要因素就是方法中是否增加了Synchronize关键字;Hashtable的put方法和remove方法HashMap的put方法和remove方法2.是否提供contains方法HashMap只有containsValue和containsKey方法;HashTable有contains、containsKey和containsValue三个方

2021-04-04 10:31:48 271

原创 MySQL练习题

MySQL练习题文档下载链接:链接:https://pan.baidu.com/s/1K9hoIbwWCNmEcaTBYBupMg提取码:bs3g1. 组合两个表需求:编写一个 SQL 查询,对两表进行关联,展示列为:FirstName, LastName, City, State展示效果:FirstNameLastNameCityStateAllenWangNew York CityNew YorkCreate table If Not Exists 1

2021-03-28 20:59:47 3594

原创 java中的StringBuilder和StringBuffer的区别

StringBuffer和StringBuilder的区别**1、StringBuffer与StringBuilder中的方法和功能完全是等价的。这里我们可以通过代码提示看到:StringBuilder的有关方法:StringBuffer有关的方法:当然这里没有全部显示这两个的方法,感兴趣的也可以通过javaAPI文档查到所有的方法:文档下载链接:[https://pan.baidu.com/s/1MN41fN_rqgJgTxnyNIrymg]提取码:bs3g2、StringBuff

2021-03-25 14:55:28 930

devops部署涉及使用组件参考

devops部署涉及使用组件参考

2022-05-08

CDH6.3.1搭建资料.pdf

CDH安装资料

2021-08-03

CDH大数据环境优化.docx

1.3.1 数据块优化 dfs.blocksize = 128M 文件以块为单位进行切分存储,块通常设置的比较大(最小6M,默认128M),根据网络带宽计算最佳值。 块越大,寻址越快,读取效率越高,但同时由于MapReduce任务也是以块为最小单位来处理,所以太大的块不利于于对数据的并行处理。 一个文件至少占用一个块(如果一个1KB文件,占用一个块,但是占用空间还是1KB) 我们在读取HDFS上文件的时候,NameNode会去寻找block地址,寻址时间为传输时间的1%时,则为最佳状态。 目前磁盘的传输速度普遍为100MB/S 如果寻址时间约为10ms,则传输时间=10ms/0.01=1000ms=1s 如果传输时间为1S,传输速度为100MB/S,那么一秒钟我们就可以向HDFS传送100MB文件,设置块大小128M比较合适。 如果带宽为200MB/S,那么可以将block块大小设置为256M比较合适。

2021-08-03

云数据库ClickHouse分析业务最佳实践.pdf

阿里云应用clickhouse优化实践PPT

2021-08-03

ClickHouse知识讲解PPT.pptx

clickhouse知识点讲解

2021-08-03

MySQL练习题.md

做完这100SQL练习题,SQL面试轻松搞定

2021-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除