- 博客(895)
- 资源 (29)
- 收藏
- 关注
原创 AWK快速入门教程
最近看到安装开源软件的相关脚本,其中大量用到AWK相关内容。本文介绍AWK的基础知识及典型用法、结合示例进行说明,方便备忘查询。了解awk基础知识将大大提高命令行上操作文本文件的能力。awk有几种不同的实现。我们将使用awk的GNU实现,它被称为gawk。在大多数Linux系统上,awk解释器只是gawk的符号链接。
2023-09-15 09:08:36
69
原创 Scikit-Learn快速生成分类数据集
现在你学会了使用scikit-learn的make_classification函数生成不同类型数据集了吧。包括二分类或多分类、不平衡数据集、挑战性难分类的数据集等。更多参数可以查看官方文档。
2023-09-13 20:12:40
435
原创 Python快速检验数据分布
本文介绍了如何利用python进行数据分布检验。,通过官方文档可以进一步学习其他参数的,实现更多数据检验能力。假设检验的前提是确定数据的分布,本文介绍Python检验数据样本是否服从一定分布。使用方法是柯尔莫可洛夫-斯米洛夫检验(Kolmogorov–Smirnov test,K-S test),K-S检验方法适用于探索连续型随机变量的分布,对于离散分布(二项分布和泊松分布)需要使用其他方法进行检验。
2023-08-23 11:59:29
766
原创 用ClickHouse 文件表引擎快速查询分析文件数据
本文介绍了ClickHouse文件引擎的概念和使用方法。利用文件引擎我们快速实现对数据文件的查询统计分析。
2023-08-09 15:28:43
1039
原创 快速掌握 Cypher 查询语言
> Cypher是最广泛采用的、开放的、专门用于图数据库查询语言。它提供了一种直观和快速的方式来处理图数据。>> 本文包含一些常见的Cypher查询及其解释。如果你不确定如何编写Cypher查询时,可以查看此文备忘单。如果你是图形数据库和Cypher的新手,你也可以使用这篇文章来熟悉Cypher提供的功能。
2023-07-27 13:55:25
375
原创 Neo4j数据库中导入CSV示例数据
本文简要介绍Neo4j数据库以及如何从CSV文件中导入示例数据,方便我们快速学习测试图数据库。首先介绍简单数据模型以及基本图查询概念,然后通过LOAD CSV命令导入数据,生成节点和关系。
2023-07-26 16:23:54
1118
原创 Python生成中文词云图
本文介绍了Python如何生成词云,主要过程包括加载数据、中文分词、自定义形状、生成词云。上面过程可以进一步改进,如过滤停顿词,保持结果为文件或流,让其他应用直接调用。
2023-07-23 20:55:06
491
原创 ClickHouse如何处理实时更新
ClickHouse提供丰富的工具集处理实时更新,如:ReplacingMergeTree, CollapsingMergeTree (本文未提及), AggregatingMergeTree 和aggregate 函数。数据通过插入新版本进行修改,插入在ClickHouse中很快有多种有效方法实现类似OLTP中的更新语义实际修改不会立刻发生具体选择哪种方法依赖具体应用场景。ReplacingMergeTree对用户来说是最直接、方便,但一般用于数据量为中小量级或数据仅通过主键查询场景。
2023-07-13 08:29:54
777
原创 介绍几种ClickHouse的集合运算
实际应用中通常需要进行集合运算,如用户画像场景中,给同时复合两个条件集合的用户打标签。本文介绍intersect子句实现交集查询,另外还对比其他方法的实现逻辑。ClickHouse除了提供交集,还有并集和差集功能,实现逻辑一致,了解一个其他也都能理解并应用。
2023-06-28 12:14:57
1056
1
原创 在ClickHouse中计算衍生度量
指标的核心任务就是把原始数据转换为专家数据,指标有维度和度量等要素组成,有时为了提高计算效率,会基于指标度量同时定义其衍生度量,一次性计算多个值。如有当月销售额派生出上月销售额、去年同期销售额等。本文通过示例介绍ClickHouse如何实现衍生度量计算。
2023-06-27 15:08:30
928
原创 使用EXPLAIN SYNTAX优化ClickHouse查询语句
ClickHouse 能够自动优化简单查询,可以使用`EXPLAIN SYNTAX`手动优化查询提升性能。虽然ClickHouse能够自动优化一些查询,但对于复杂查询并不能自动优化。基于EXPLAIN SYNTAX进行分析结果并结合查询日志,会对复杂查询优化提供更多的优化思路。
2023-06-25 20:30:00
976
原创 优化索引粒度参数提升ClickHouse查询性能
当对高基数列进行过滤查询时,总是希望尽可能跳过更多的行。否则需要处理更多数据、需要更多资源。ClickHouse缺省在MergeTree表读取8192行数据块,但我们可以在创建表时调整该`index_granularity` 参数。本文通过示例说明如何调整该参数优化查询性能。
2023-06-25 16:12:47
995
原创 ClickHouse性能调优之排序和数据类型
每个DBA都关心数据库性能调优,我们知道不同数据类型可以描述不能业务场景,同时也影响数据访问和有效存储。ClickHoue支持高级压缩算法提升速度和降低存储成本,优化ClickHoue存储架构提升内存和网络带宽的性能。那我们如何选择压缩算法和数据类型呢?本文通过简单示例说明了排序和选择合适的数据类型,对ClickHouse存占用和处理性能有较大影响。
2023-06-20 09:13:16
1393
原创 利用投影提升ClickHouse查询性能
本文介绍了排序键对查询的作用,并通过示例对比使用projection提升查询性能,最后也提及如何在命令行下查询性能统计信息。参考文档:https://www.tinybird.co/clickhouse/knowledge-base/improve-performance-inverted-index。
2023-06-19 22:02:09
2067
原创 # 正确删除并理解ClickHouse表和分区
ClickHouse表有一组数据块组成,称为分区和部分,分区是逻辑概念,对应磁盘上的目录,部分对应磁盘上的实际文件。我们可以从表中分离(detach) 分区(partition)或部分(parts),并没有实际删除数据,意味着数据从表中删除,并没有从磁盘上删除,我们可以在未来某个时刻重新附着分区或部分。
2023-06-17 17:25:54
2171
原创 ClickHouse http错误代码与查询日志
本文介绍如何获取所有ClickHouse http查询错误代码,通过对比错误代码更好理解HTTP请求的响应头信息。另外ClickHouse会在系统表中保留所有查询日志,如何保留查询相对平衡,避免日志过大占用大量磁盘空间。
2023-06-16 17:32:48
2567
原创 ClickHouse APPLY对多列应用相同函数
日常工作中,通常会遇到相同函数需应用至多个列中,导致对多个列编写重复代码,举例:上面示例希望获取日志信息,但对三个bytes结尾的列使用 函数,传统写法很冗余。我们可以使用 语法,举例: 。EXCEPT可以排除一些列。然后使用 表达式选择多个列,可以使用正则表达式,举例: 。最后使用APPLY修饰符应用函数至前面选择的每个列,举例:。应用流程为:先排除字段列表,然后选择列,最后对选择列应用函数。完整示例为:处理 还有 ,下面通过示例进行分解说明,加深你的理解。首先创建表并插入示例数据:APPLY
2023-06-11 17:11:34
1560
1
原创 ClickHouse数据查询处理高级技巧
本文介绍ClickHouse查询远程服务、多表联合查询、查询特定分区,以及如何交换表和软删除表。这些功能一般RDBMS实现较难,ClickHouse提供的功能可以更高效、更便捷查询处理数据。
2023-06-06 10:54:58
1568
原创 ClickHouse性能调优——压缩和编码算法
本文主要介绍了ClickHouse的压缩类型及编码方法,并测试数据进行压缩率对比分析。根据分析结果,压缩率不仅和压缩算法和编码相关,也和数据类型,基数,数据特征有关。
2023-05-31 17:53:09
2019
原创 介绍ClickHouse重要特性——系统表
系统表是ClickHouse的重要特性,主要提供数据库SCHEMA、配置和使用的元数据。主要用于数据库管理、查询优化以及系统监控。通过使用系统表DBA和开发者能优化ClickHouse数据库性能、提升整体效率。
2023-05-27 20:06:19
1447
原创 ClickHouse识别日期范围重叠的记录
结果显示,employee1和employee1有重叠,从 2022-08-05到2022-08-10;类似employee2和employee3也有重叠,从2022-09-08到2022-09-10。实际项目中遇到需要查询记录之间日期范围重叠的记录,因为每条记录都包括开始和结束时间,本质就是查询日期重叠的记录,不需要完全重叠,只有有重叠就满足条件。在ClickHouse中可以在SQL中查询比较每个范围的开始和结束日期,判断是否有任何重叠。对于数据集中包括日期范围,通过这个方法可以有效识别日期重叠的记录。
2023-05-24 08:13:56
892
原创 优化ClickHouse星型模型查询性能
ClickHouse中in查询大多数场景执行效果较好,另外反规范化也能提升性能。物化视图可以实现在插入阶段实时反规范化,但物化视图会增加磁盘空间、并影响插入性能。
2023-05-23 08:49:48
1031
原创 利用ClickHouse派生表优化查询性能
本文介绍了ClickHouse派生表,如何显示或隐式创建派生表,利用好派生表不仅可以提升SQL可读性,还可以提升查询性能。
2023-05-22 12:55:50
1066
原创 使用TTL管理ClickHouse数据生命周期
ClickHouse提供强大数据生命周期管理工具实现自动删除、压缩或在不同存储类型中移动。TTL语句可以在表级别配置压缩和保留策略,也可以配置列级ttl策略。参考资料:https://dhqgwvxng9vgy.cloudfront.net/blog/using-ttl-to-manage-data-lifecycles-in-clickhouse。
2023-05-20 16:37:21
1722
原创 Golang实现简单WebSocket服务
我们每天接触到各类应用,如社交、在线文档、直播等,后端都需要使用WebSocket技术提供实时通信能力。本文介绍如何使用Golang实现实时后端WebSocket服务,首先使用Gin框架搭建http服务,然后使用库实现简单后端WebSocket服务,示例实现从0到1的过程,适合初学者快速入门。
2023-05-18 21:29:44
1689
原创 ClickHouse服务端配置最佳实践
Clickhouse 服务端配置包括两个部分:服务配置 (config.xml) 和用户配置 (users.xml),它们缺省存储在目录下。建议不要改变默认配置文件,把我们的配置放在子目录下的独立文件中,这样更易于维护和升级。/etc/clickhouse-server/users.d – 存放用户配置的子目录./etc/clickhouse-server/config.d – 存放服务配置的子目录./etc/clickhouse-server/conf.d – 存放任何配置的子目录.
2023-05-12 14:41:30
1623
原创 ClickHouse 基于角色访问控制(RBAC)最佳实践
本文介绍ClickHouse RBAC访问控制模型。包括如何启用SQL管理,创建管理员用户,创建角色,授权,细粒度列和行级授权。并通过示例进行验证实现过程。
2023-05-11 13:37:41
796
原创 如何在Java中调用Python
本文介绍了如何从Java调用Python脚本,使用jython脚本引擎比ProcessBuilder类更简单。另外Python可以便捷搭建http应用,Java也可以通过HTTP协议直接调用HTTP服务实现交互。参考内容:https://www.baeldung.com/java-working-with-python。
2023-04-30 21:54:45
2800
1
原创 使用gopsutil获取OS信息
psutil (process and system utilities)是Python实现的跨平台库,用于获取进程和系统信息工具(CPU, memory, disk, network, sensors),gopsutil是Go语言实现版本。gopsutil屏蔽了不同系统的差异,有良好的可移植性。另外,通过移植C结构体至Go,gopsutil没有cgo代码,跨平台编译更容易。
2023-04-29 18:08:05
1268
原创 比较ClickHouse三种表字段默认值表达式
ClickHouse表字段支持三种默认值表达式的定义方法,分别是DEFAULT、MATERIALIZED和ALIAS。Default其他RDBMS也支持,比较常用,本文注意介绍后两者表达式的差异,并通过示例分别进行介绍。
2023-04-26 08:04:00
1696
原创 如何合理使用ClickHouse分区表
在Clickhouse中分区功能实现透明地将表拆分为多个块,并能够独立管理这些块(例如删除它们)。分区键应该始终为低基数表达式(如有几十个值)。不要仅为了提高查询性能而考虑分区,同时也要注意到分区表数据写入性能可能会降低。
2023-04-20 09:20:08
1956
原创 ClickHouse自定义函数实例教程
通过函数封装复杂代码,可以在多个应用场景中复用通过给定输入参数,可以简化测试修改函数定义自动反应至所有函数调用,避免重复维护UDF可以消除重复工作,虽然强大,也不要过度滥用。
2023-04-19 08:13:53
1637
原创 ClickHouse实现大数据探索性分析
ClickHouse提供数学函数、聚集函数用于对大数据量进行探索性分析。,效率更高,通常用于数据分析的初始阶段。min(), max(), avg() and median() 最常用的几个聚集函数avgWeighted(col, weights) 计算加权平均quantile(level)(col) 计算分位数histogram(bins)(col) and bar() 计算并画直方图skewPop(col) 计算偏度,判断数据是否对称uniq(col) 近似唯一值计算。
2023-04-17 16:30:16
1156
原创 如何合理选择ClickHouse表主键
基于ClickHouse优化结构和排序数据,正确利用主键索引能节约资源,极大提升查询性能。选择计划在大多数查询中使用的列选择大部分查询需要的列,如主键包含3列,查询包括1列或2列如果查询不确定,首先使用低基数列,然后再使用高基数列,从而获得更好的压缩和提高磁盘利用率参考资料:https://medium.com/datadenys/how-clickhouse-primary-key-works-and-how-to-choose-it-4aaf3bf4a8b9。
2023-04-14 17:27:52
1804
原创 优化Key顺序提升ClickHouse查询性能
如果不确定order键顺序,使用低基数列作为第一列,高基数列作为最后列,从而确保第二索引列的查询性能。参考文档:https://medium.com/datadenys/improving-clickhouse-query-performance-tuning-key-order-f406db7cfeb9。
2023-04-14 09:00:00
958
原创 如何给ClickHouse表生成随机真实测试数据
本文介绍了生成随机测试的函数,包括基本语法及一些数据分布函数的应用,这些函数需至少22.10版本。利用这些函数让数据更真实、更贴近实际业务场景。参考资料:https://clickhouse.com/blog/generating-random-test-distribution-data-for-clickhouse官方文档:https://clickhouse.com/docs/en/sql-reference/functions/random-functions#randuniform。
2023-04-13 21:31:13
939
原创 Golang实现更安全的HTTP基本认证(Basic Authentication)
本文介绍了Go如何实现安全http基本认证,首先介绍原理,后面给出详细实现过程,最后通过curl和GO http客户端进行验证。详细内容参考:https://www.alexedwards.net/blog/basic-authentication-in-go。
2023-04-10 18:00:14
1275
2
原创 ClickHouse存储解析JSON数据
json数据在ClickHouse中就和string字段一样,但可以使用JSON*函数检查并抽取json键值。还可以使用抽取函数作为索引提升查询性能,但最好考虑将它们移动到单独的列中,只留下动态内容存储在JSON列中。参考:https://altinity.com/blog/clickhouse-json-data-type-version-22-6;
2023-03-30 21:18:57
2588
原创 常用ClickHouse性能监控SQL汇总
ClickHosue对DBA非常友好,system数据库提供了所有DBA需要的信息。本文进行介绍最重要的一些SQL,远不是完整清单,但应该能帮助你快速确定问题。参考文档:https://clickhouse.com/blog/optimize-clickhouse-codecs-compression-schema;
2023-03-29 20:07:57
626
Spring Cloud Spring Boot and Netflix OSS.pdf
2021-08-26
kafka学习资料合集
2020-09-22
嵌套聚集示例数据--nested-data.json
2020-04-04
Elasticsearch Painless Script入门教程--示例数据-sat.json
2020-03-23
Elasticsearch Painless Script入门教程--示例数据-sat.json
2020-03-23
深入理解 significant terms 和 significant text 分组聚集代码 sports&news.json
2020-02-23
Elasticsearch聚合分析实战(2)-employees.json
2020-02-15
Effective Java 3rd Edition
2018-09-18
YSJSW(Yet Another Java Service Wrapper)
2016-08-30
《在Tomcat上安装部署SAIKU》资源下载
2015-02-10
《kettle中使用javascript步骤和fireToDB函数实现自定义数据库查询 》代码
2014-10-29
《kettle中调用java类》示例代码
2014-10-12
《kettle子转换即映射》博客示例代码
2014-10-05
《示例学习kettle之Excel Writer步骤》博客文章示例
2014-09-16
《详解kettle之User Defined Java Class步骤》示例代码
2014-09-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人