HD0do(迪答数据)-CSDN博客

File "/usr/local/lib/python2.7/dist-packages/xlrd-0.9.4-py2.7.egg/xlrd/compdoc.py", line 418, in _locate_stream raise CompDocError("%s corruption: seen[%d] == %d" % (qname, s, self.seen[s]))xlrd.compdoc.CompDocError: Workbook corruption: seen[2] == 4

2022-07-23 20:14:12 3088

原创 DorisSQL 语法使用汇总

DDL语句1.修改字段注释，字段类型alter table dev_dws.dws_transaction_data_h modify column order_cnt bigint comment '下单单数'

2022-07-21 16:21:34 3196

原创 Flink SQL 实现读写redis，并动态生成Hset key

Flink SQL 实现读写redis，并动态生成Hset key

2022-07-04 17:45:06 3611 1

原创 Flink CDC mongoDB 使用及Flink sql解析monggo中复杂嵌套JSON数据实现

Flink CDC mongoDB 使用及Flink sql解析monggo中复杂嵌套JSON数据实现

2022-06-29 19:32:04 3548

原创 spark 写入doris太慢方案解决

最近公司用到了spark读写doris，因为doris其实就是mysql协议，在读取数据时候速度还是可以的，但是写入时候就发生了数据写入特别慢，几千条的数据甚至要用几十分钟，这不是可以接受的。经过调研查询发现因为连接参数没有指定，数据都是单条写入，改造前写入方式： userLogDF .write .format("jdbc") .mode(SaveMode.Append) .option("dr

2022-05-23 16:50:50 1962 2

原创 spark读写Doris实现及Doris文档更新

了解spark读写doris两种方案实现及doris官方文档更新介绍，更多埋点会话id切分文章参考

2022-05-08 16:51:45 8717 1

原创 k8s总结记录

k8s使用笔记总结

2022-04-11 15:21:01 188

原创 Docker常用命令总结及Docker与微服务零基础到精通学习框架资料整理

docker命令学习，及学习框架梳理资料获取

2022-04-11 14:44:44 660

原创 Doris对接消费kafka数据方案实现

doris对接kafka，消费kafka数据到doris中方案实现

2022-04-09 16:22:42 10788 1

原创 Doris 开发实践建表，模型选择，分区使用，函数使用问题汇总

Doris实践使用建表，模型选择，分区使用，分桶使用，各内置实践函数问题总结

2022-04-05 15:20:06 2925

原创 Doris为数据分析而生的olap数据库：数据模型和数据分区使用详解

Doris数据模型和数据分区使用详解，实现Doris动态分区

2022-04-04 22:04:49 5162

原创 Flink task故障失败恢复策略详解及对应参数、代码配置

Flink任务执行过程中经常会出现由于网络或者内存等原因导致某些task失败，这时就需要我们配置对应的task故障恢复，也就是重启策略来保障某个子task失败可以自动恢复过来而不影响导致整个flink job任务失败。Flink的故障恢复有四种方式：重启策略分为：固定延迟重启策略、故障率重启策略、无重启策略、后备重启策略；

2022-03-20 18:48:25 4539

原创 mysqlbinlog文件解析为对应的SQL语句详解

公司数仓中对于订单表这种实事表的数据因为是通过flinkCDC同步mysql的中的业务数据，其中有数据出现数仓和业务库中的数据偏差，需要通过解析原始mysql中的binlog文件来确定数据不一致的原因在哪里。1.SQL语句查询show...

2022-03-13 23:00:51 13363

原创任务调度数据质量之通过企业微信监控预警

企微微信群历史任务实时任务调度失败预警

2022-02-24 20:31:33 1184

原创大数据知识框架体系总结梳理

大数据框架梳理总结，可以先收藏一下，毕竟是要不断更新的，防止想看的时候找不到了。

2022-02-19 15:03:06 2175

原创 Flink SQL使用jdbc连接数据库参数配置及注意事项

Flink SQL 通过jdbc连接表的DDL语句create table deal_mysql(tenant_id String,shop_id String,pay_amt decimal(19, 2),pay_qty double,sku_code String,category_code_b string,write_time timestamp,dt Date,primary key (tenant_id,sku_code) not enforced)with('con

2022-02-09 19:19:36 10537 1

原创用户画像打标签之RFM客户价值分析

RFM模型是衡量用户价值的重要工具和方法， RFM模型主要由3个基础指标组成：（1）最近一次消费（Recency），是指用户上一次购买时间；（2）消费频率（Frequency），是指用户在一定时间段内的消费次数；（3）消费金额（Money），是指用户在一定时间段内累计消费的金额。这3个基础指标进行组合可以划分出8类人群，如表4-1所示。表4-1 RFM用户价值模型在开发对应的标签前需要进行数据调研。根据对数据仓库中拉取的用户消费相关数据进行分析后得出用户这3个

2022-01-26 11:18:33 3284

原创大数据框架命令使用总结记录

大数据组件命令最全总结

2022-01-21 16:16:54 2776

原创 Flink cdc使用及参数设置

FLInk sql cdc 监听mysqlbinLog以及代码监听，和对应的参数设置，过滤掉数据库的删除操作

2022-01-20 20:06:52 10261

原创 clickhouse中bitmap在用户标签，访客去重生产中使用及clickhouse建表null值数据类型处理

clickhouse bitmap的使用，和在用户去重和标签的生产实践，及bitmap join的相关测试

2022-01-15 12:11:00 5305

原创 FlinkSQL详细系统的全面讲解及在企业生产的实践使用

FlinkSQL中mysql，kafka,Clickhouse数据源对接，实时流表关联维度表，CDC的使用，FlinkSQL写入clickhouse两种方式实现，FLINkSQL全面详解，解析flinkSql解析JSON数据，访问量和订单金额统计生产实践

2022-01-10 20:57:37 3699

原创用户行为数据会话（session）切割及spark读写clickhouse完整实现

用户数据统计中会话切割实现，spark读写clickhouse及SQL方式实现session切割

2021-12-23 10:45:11 2425

原创 clickhouse中使用arrayjoin进行数据补全

clickhuose-arrayJoin函数在业务补充数据中的使用

2021-11-30 18:17:34 2658

原创 sparkSQL读取 MongoDB 中存储的嵌套JSON数据，并解析写入hive中

七夕之下，我却独自在此晚写下这一《spark读取MongoDB数据文章》，奈若何，奈若何.....

2021-08-14 22:59:07 1190

原创 Python数据类型及相关方法使用，建议可以收藏一下

了解Python相关数据结构，及相关的操作方法，可以先收藏一下，需要的时候参考

2021-06-24 22:45:42 242

原创 Flink学习路径及方法攻略

Flink作为新一代的大数据分布式的计算引擎，具有更快的计算速度，更好的实现了数据的式处理，更有阿里团队在大力的推荐Flink的开发，所以学习Flink对于大数据行业来说是十分必要的；学习它是为了在实际工作中用到，那具体要学习Flink中的那些内容呢，下面来列举一下：学习内容一、基础篇1.了解flink的基本特点:流和批的思想、事件驱动、分层API等2.各个特点应用的场景，数据管道应用3.Flink的集群安装，及本地运行模式，yarn模式，Standalone模式等的区别和特点4.idea导入

2021-05-27 21:19:44 1474

原创 spark WebuI查看spark作业的执行情况

我们在集群上运行了spark作业怎么看执行情况，作业执行时间，用到的那些算子，job具体的阶段划分等等信息，其实官方就已经很好的给我提供了这些信息查看的方式web界面；先来说一下实际中用到的这个解决的问题，工作中因为我要通过hive来进行数据分析，而用到的引擎就是spark，其中我用到了hive的自定义udf函数实现查到的数据发往kafka，但是因为不知道底层hive转换为spark的什么算子来执行，如果像collect算子，top等算子就会造成数据全部拉到driver端处理，就容易造成内存溢出，所以最

2021-05-22 16:00:42 2809

原创面试造火箭不一定就是不合理的

分享一下最近的工作经历和感受公司最近在做新的项目，我现在要独立的负责项目的一部分功能，这次就让我有点体会到了为什么面试要造火箭（工作过的人应该都有感到面试造火箭，工作拧螺丝的体验吧）,因为项目需要我要写一个程序实现一个功能，大体的算法逻辑就是：类似就是实现给一个任意大小的数组a，以及一个任意大小的整数b,要循环遍历数组，每次输出打印b个数组元素，最后一次的打印的元素个数小于等于b当时就是感觉实现很简单，可是就是实现不了其中的逻辑，一直出现各种问题，用了好久才把程序调试通过，那一刻我内心的突然产生的

2021-05-21 19:39:13 202

原创 CDH中将hive计算引擎调整为spark及hive引擎设置相关命令

CDH中将hive计算引擎调整为spark1.在CDH的hive中搜索配置参数：hive.execution.engine2.第一步仅仅是修改的jdbc，也就是beeline远程连接时候计算引擎修改为hive，还需修改hive-site.xml中的hive.execution.engine配置文件为spark<property> <name>hive.execution.engine</name> &lt

2021-05-14 20:52:23 4003 2

原创 HashMap和Hashtable的区别

HashMap和Hashtable的区别1.线程安全HashMap是线程不安全，但是处理速度快，Hashtable线程安全，但是相对处理速度慢，主要因素就是方法中是否增加了Synchronize关键字；Hashtable的put方法和remove方法HashMap的put方法和remove方法2.是否提供contains方法HashMap只有containsValue和containsKey方法；HashTable有contains、containsKey和containsValue三个方

2021-04-04 10:31:48 374

原创 MySQL练习题

MySQL练习题文档下载链接：链接：https://pan.baidu.com/s/1K9hoIbwWCNmEcaTBYBupMg提取码：bs3g1. 组合两个表需求：编写一个 SQL 查询，对两表进行关联，展示列为：FirstName, LastName, City, State展示效果：FirstNameLastNameCityStateAllenWangNew York CityNew YorkCreate table If Not Exists 1

2021-03-28 20:59:47 5492

原创 java中的StringBuilder和StringBuffer的区别

StringBuffer和StringBuilder的区别**1、StringBuffer与StringBuilder中的方法和功能完全是等价的。这里我们可以通过代码提示看到：StringBuilder的有关方法：StringBuffer有关的方法：当然这里没有全部显示这两个的方法，感兴趣的也可以通过javaAPI文档查到所有的方法：文档下载链接：[https://pan.baidu.com/s/1MN41fN_rqgJgTxnyNIrymg]提取码：bs3g2、StringBuff

2021-03-25 14:55:28 1053

CDH6.3.1搭建资料.pdf

CDH安装资料

2021-08-03

云数据库ClickHouse分析业务最佳实践.pdf

阿里云应用clickhouse优化实践PPT

2021-08-03

devops部署涉及使用组件参考

2022-05-08

ClickHouse知识讲解PPT.pptx

clickhouse知识点讲解

2021-08-03

CDH大数据环境优化.docx

1.3.1 数据块优化 dfs.blocksize = 128M 文件以块为单位进行切分存储，块通常设置的比较大（最小6M，默认128M）,根据网络带宽计算最佳值。 块越大，寻址越快，读取效率越高，但同时由于MapReduce任务也是以块为最小单位来处理，所以太大的块不利于于对数据的并行处理。 一个文件至少占用一个块（如果一个1KB文件，占用一个块，但是占用空间还是1KB） 我们在读取HDFS上文件的时候，NameNode会去寻找block地址，寻址时间为传输时间的1%时，则为最佳状态。 目前磁盘的传输速度普遍为100MB/S 如果寻址时间约为10ms，则传输时间=10ms/0.01=1000ms=1s 如果传输时间为1S，传输速度为100MB/S，那么一秒钟我们就可以向HDFS传送100MB文件，设置块大小128M比较合适。 如果带宽为200MB/S，那么可以将block块大小设置为256M比较合适。

2021-08-03

MySQL练习题.md

做完这100SQL练习题，SQL面试轻松搞定

2021-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人