自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 将全部包含2023的字段的txt文本全部替换成1.TXT的shell脚本

xargs 命令将找到的文件传递给grep -l 2023(包含2023字段的文件名,-l标识只输出文件名)-print0 和 -0参数确保文件名中的空格和特殊字符被正确处理,并通过管道传给下xargs命令。xargs - I {} mv {} ./1.txt将所有符合要求的文件都替换成1.txt。

2024-02-29 18:47:58 341

原创 shell不固定的多参数获取方法

bash script.sh 参数1 参数2 参数3。# 遍历所有的参数并打印它们。

2024-02-24 23:51:34 425

原创 hadoop中的distcp命令原理及应用

hadoop中的distcp命令原理及应用

2024-02-23 15:37:13 664

原创 使用shell脚本实现目录下文件按照所需字符串进行排序输出

使用shell脚本实现目录下文件按照所需字符串进行排序输出

2024-02-22 18:59:14 394

原创 代码实现龙型烟花秀

代码实现龙型烟花秀

2024-02-21 16:02:22 367

原创 clickHouse物化视图的原理及应用

clickHouse物化视图的原理及应用

2024-02-21 11:32:01 444

原创 clickHouse高性能入库建议

clickHouse高效能入库建议

2024-02-21 11:11:43 520

原创 什么是大模型,以及大模型的实用领域和前景

在没有大模型的情况下,分析这些庞大的数据可能是一个巨大的挑战,因为数据可能涉及数千万甚至数亿的用户,包含通话记录、短信、上网行为、消费习惯等。首先,大模型在自然语言处理、计算机视觉等领域已经取得了显著的成果,未来随着技术的不断进步,大模型的性能将得到进一步提升,可以处理更加复杂、细致的任务。大模型的出现为人工智能技术的发展提供了新的思路和方法,未来随着大模型技术的不断发展和创新,将涌现出更多新的人工智能应用和技术。同时,大模型的训练和应用也需要大量的计算资源和专业知识,这也限制了大模型的普及和应用。

2024-02-20 18:26:32 1563

原创 clickHouse SQL调优

如果使用去重引擎进行数据查询,且使用argMax函数和final关键字,会导致整个 查询性能较差,需要提前对重复数据做合并去重optimize操作,查询时候直接查 询不需要使用argMax函数和final关键字,提升查询性能。MergeTree引擎会根据索引字段进行数据排序,并且根据index_granularity的配置 生成稀疏索引。根据索引字段查询,能快速过滤数据,减少数据的读取,大大提 升查询性能。

2024-02-20 17:41:56 840

原创 clickHouse最佳实践参数调整

参数 参数描述 默 认 值 建议值 是否需 要重启 生效 max_memory_us age_for_all_queries 单台服务器上所有查询的内存使用 量,默认没有限制。建议根据机器 的总内存,预留一部分空间 0 机器总内 存的80% 否 max_memory_usage 单个查询在单台服务器的能使用的 最大内存。 10G 50-100G 否 max_bytes_befor e_external_group _by

2024-02-20 17:31:07 826

原创 clickhouse索引设计

clickhouse索引设计,一级索引设计,二级跳数索引设计

2024-02-19 11:31:32 1754

原创 clickHouse分区设计

● 如果业务场景需要做小时分区(获取小时分区的单分区数据量超过亿级别),使用d、h做联合分区键,其中h是整型 小时数。例如(20240219,8)此分区就是以(天,小时)作为分区键。● 综合考虑数据分区粒度、每个批次提交的数据量、数据的保存周期等因素,合理 控制part数量。● 建议使用toYYYYMMDD(d)作为分区键,d是date类型。● 如果保存多年数据,建议考虑使用月做分区,toYYYYMM(m)。合理设置分区键,控制分区数在一千以内,分区字段使用整型。

2024-02-19 11:05:37 563

原创 clickHouse本地表设计

clickHouse本地表设计

2024-02-19 10:51:02 373

原创 ClickHouse之MergeTree引擎!

删除老数据的操作是在分区异步merge的时候进行处理,只有 同一个分区的数据才会被去重,分区间及shard间重复数据不会被 去重,所以应用侧想要获取到最新数据,需要配合argMax函数一 起使用。Summin gMergeTree 当合并SummingMergeTree表的数据片段时,ClickHouse会把所有 具有相同主键的行进行汇总,将同一主键的行替换为包含sum后的 一行记录。如果主键的组合方式使得单个键值对应于大量的行,则 可以显著的减少存储空间并加快数据查询的速度。

2024-02-18 17:29:42 414

原创 查看clickHouse中未压缩大小,已压缩大小,占有磁盘大小,总条数

查看clickHouse中未压缩大小,已压缩大小,占有磁盘大小,总条数

2024-02-18 16:43:36 595

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除