大数据开发
文章平均质量分 80
之前零散接触大数据相关知识和组件,也有一定使用经验。现在公司研发项目要搞大数据,我把技术选型、组件使用及生产中的问题,记录下来,作为积累和分享。
坚持是一种态度
男,研究生学历,中国科大硕士,高级软件工程师,作为 大数据分析/架构师/Java开发/运维 岗位角色进行工作。喜欢读书、听音乐、看电影和看动漫,热爱生活,热爱学习。
展开
-
Doris:数组数据类型array使用介绍
【代码】Doris:数组数据类型array使用介绍。原创 2024-03-15 13:20:52 · 2066 阅读 · 0 评论 -
Doris:使用表函数explode实现array字段列转行
一句话总结:Doris宽表怎么转成高表,就是借助Lateral view。原创 2024-03-15 13:18:39 · 2252 阅读 · 3 评论 -
Doris基本概念介绍
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。原创 2024-01-26 19:11:15 · 985 阅读 · 0 评论 -
ClickHouse修改和删除操作
ClickHouse是由俄罗斯的Yandex公司开发的一款快速、可扩展的列式数据库管理系统。它专门针对OLAP场景设计,在海量数据分析和查询方面具有出色的性能表现,同时还能支持实时数据插入和更新。ClickHouse采用了面向列的存储方式,具有较高的压缩比和查询速度。它支持SQL语言,并提供了一系列丰富的函数库,可满足各种复杂的数据分析需求。clickhouse对数据删除和更新有一定支持,但不推荐使用SQL直接更新原创 2023-07-23 22:04:16 · 3211 阅读 · 1 评论 -
clickhouse数据库里聚合函数any的用法
ClickHouse的anyHeavy函数,返回一个频繁出现的元素。column-字段名称选择一个频繁出现的值,使用算法如果某个值在查询的每个执行线程中出现的情况超过一半,则返回此值通常情况下,结果是不确定的。查询实例。原创 2023-07-23 12:04:54 · 2235 阅读 · 0 评论 -
使用clickhouse的ORDER BY WITH FILL方法插值补全缺失的值
使用clickhouse的ORDER BY WITH FILL方法插值补全缺失的值。WITH FILL修饰符配合ORDER BY使用,就是为了按照指定顺序填值,有值跳过,无值插入可以在之后用可选的和STEP expr参数来设置WITH FILL修饰符from to确定补值的范围,step是步进,没有则使用默认值所有expr列的缺失值将被顺序填充,而其他列将被填充为默认值使用以下语法填充多列,在ORDER BY部分的每个字段名称后添加带有可选参数的WITH FILL修饰符。原创 2023-06-23 17:44:57 · 1850 阅读 · 0 评论 -
ClickHouse嵌套类型使用案例:使用Array和Tuple(或Nested)表示交通干线指标场景
【代码】ClickHouse嵌套类型使用案例:使用Array和Tuple(或Nested)表示交通干线指标场景原创 2023-05-11 23:37:48 · 604 阅读 · 0 评论 -
clickhouse的嵌套数据结构Tuple、Array与Nested类型介绍和使用示例
clickhouse的嵌套数据结构Tuple、Array与Nested类型介绍和使用示例,生产场景使用,分组聚合求平均原创 2023-05-09 23:57:55 · 5052 阅读 · 0 评论 -
ClickHouse的物化视图(Materialized View)使用介绍
物化视图虽然能够自动更新数据,但是会带来一些性能上的损失,尤其是在基础表数据量较大的情况下。因此,在设计物化视图时,需要考虑这个因素,同时选择合适的刷新机制来平衡性能和数据实时性的需求。当基础表有数据插入时,触发器会自动插入相应的数据到物化视图中。)是一种特殊的表,它能够在底层数据更新后,自动更新自己的数据。数据更新包括两个方面的变化:基础表的数据修改和基础表的数据新增。另外,我们也可以手动刷新物化视图,甚至可以使用一些定时手段,实时或定时去触发它。如果基础表的数据修改,物化视图会自动更新。原创 2023-05-08 22:30:11 · 6563 阅读 · 8 评论 -
clickhouse里的数组数据类型与相关使用介绍
本次主要介绍clickhouse最传统的数组 Array(T),Array(T)是一种将T类型的值组合成一个有序列表的数据结构,存储的数值类型必须是T数组类型可以使用[]语法来表示,数组类型创建查询包含查询原创 2023-05-02 17:19:50 · 4724 阅读 · 0 评论 -
大数据组件ClickHouse介绍(场景、优劣势、性能)
简介使用场景优势与劣势优势劣势性能单个查询吞吐量处理短查询的延时时间处理大量短查询数据写入性能查询性能clickhouse是一个高性能的列式存储分析数据库管理系统,由俄罗斯搜索引擎公司yandex开发。clickhouse具有以下特点高性能:clickhouse优化了查询和数据压缩算法,支持多维度数据分析和快速聚合查询。分布式:clickhouse采用共享无状态架构,可以轻松实现水平扩展,并且支持数据分片、复制等功能。原创 2023-04-13 17:39:55 · 4010 阅读 · 0 评论 -
服务器强制关闭、异常断电等导致clickhouse数据损坏Suspiciously many broken parts to remove
在创建MergeTree表的时候特别配置一下max_suspicious_broken_parts参数。使用ALTER TABLE …MODIFY SETTING命令修改。如果服务起不来了,就只能使用这个方式解决。原创 2023-01-04 20:43:48 · 5389 阅读 · 4 评论 -
ClickHouse默认库system日志清理方法(query_log、asynchronous_metric_log)
【代码】ClickHouse默认库system日志清理方法(query_log、asynchronous_metric_log)原创 2022-11-14 20:04:16 · 6208 阅读 · 2 评论 -
PostgreSQL手动创建HikariDataSource解决报错Cannot commit when autoCommit is enabled
代码】PostgreSQL手动创建HikariDataSource解决报错CannotcommitwhenautoCommitisenabled。org.springframework.orm.jpa.JpaSystemException: Unable to commit against JDBC Connection; nested exception is org.hibernate.TransactionException: Unable to commit against JDBC Connect原创 2022-07-26 17:55:10 · 2050 阅读 · 0 评论 -
ClickHouse相关SQL总结:创建表、分区/主键/排序设置、删除表、删除分区、修改表字段
代码】ClickHouse相关SQL总结创建表、分区/主键/排序设置、删除表、删除分区、修改表字段。原创 2022-07-21 21:34:26 · 4243 阅读 · 3 评论 -
clickhouse批量写入报错TOO_MANY_PARTS,合并分区删除分区块时无权限
在windows 10上,使用docker,安装clickhouse最新镜像,启动使用- 数据库使用默认的Ordinary引擎,数据表使用MergeTree- 之前测试使用了一段时间,数据写入没问题- 昨天发现,数据并发写入一段时间后报错`Code: 252. DB::Exception: Too many parts (300). Merges are processing significantly slower than inserts. (TOO_MANY_PARTS) `,然后就写不进去了.原创 2022-07-11 18:55:32 · 2172 阅读 · 0 评论 -
ClickHouse字段分组聚合、按照任意时间段粒度查询SQL
ClickHouse字段分组聚合、按照任意时间段粒度查询SQL需求解决使用if和sum实现按照字段类型求数量求总数量使用toStartOfInterval实现不同时间粒度求和5分钟10分钟半小时一个月一年都行需求基础数据入库,需要根据字段做一些聚合现有路口过车数据,有各种车型,需要统计总流量和各个车型流量现有过车数据,需要按照时间不同粒度,统计车流量解决使用if和sum主要是使用if,符合条件为1,不符合为0,再使用sum求和...原创 2022-06-30 23:17:14 · 6925 阅读 · 0 评论 -
clickhouse常用SQL语句,查询、建表、数据复制迁移、删除等
文章目录1. 查询 数据库容量2. 查看所有表3. 常用查询4. MySQL导入到ClickHouse5. clickhouse表数据迁移到新的分区表1. 查询 数据库容量select sum(rows) as "总行数", formatReadableSize(sum(data_uncompressed_bytes)) as "原始大小", formatReadableSize(sum(data_compressed_bytes)) as "压缩大小", round(s原创 2022-02-18 17:58:35 · 2867 阅读 · 1 评论 -
ClickHouse安装和使用(windows10 docker 和 linux centos7)
ClickHouse安装使用(windows10 docker 和 linux centos7)安装centos7windows10使用工具操作命令安装centos7linux可以直接安装sudo yum install yum-utilswindows需要提前安装一个docker,在这里不做赘述windows可以使用docker安装镜像,可以使用windows DOS,也可以直接使用 Docker Desktop,映射配置很方便可以安装最新版的,也可以指定你要的版本......原创 2022-06-30 18:12:25 · 1303 阅读 · 0 评论 -
Spring-kafka配置参数详解,消息批量发送与批量接收消费
Spring-kafka配置参数详解,批量发送与批量消费消息配置文件,参数配置详解;配置类,项目启动自动创建指定分区和副本的topic;消息生产者KafkaProducer;,调用生产者发送消息;消息消费者Spring kafka集成的很好,很多东西都不需要我们做了,直接使用`KafkaTemplate`即可......原创 2022-06-30 22:36:11 · 6530 阅读 · 2 评论 -
Java网络编程:NIO核心组件及使用
buffer缓冲区的一种,我们最常使用的ByteBuffer正确使用姿势ByteBuffer结构buffer写入读取流程ByteBuffer相关方法字符串转ByteBufferByteBuffer转字符串代码demo原创 2022-06-19 20:05:37 · 178 阅读 · 2 评论 -
Elasticsearch各个版本重要特性
Elasticsearch各个版本重要特性Elasticsearch 5Elasticsearch 6.0Elasticsearch 7.0Elasticsearch 8.0Elasticsearch 5首先说明下,ES是从版本2直接跳到5的,主要是为了和Elastic Stack其他组件保持版本一致ES5,在现在来说是比较老的版本了,就不多介绍了建议大家使用ES7,或者直接使用ES8Elasticsearch 6.0移除type,在 6.0 里面,开始不支持一个 index 里面存在多原创 2022-06-29 21:02:03 · 10011 阅读 · 0 评论 -
Java网络编程:socket与Netty
Socket 实现了TCP/IP协议,可以连接到网络上的上脑,并收发数据ServerSocket 用于服务端,可以监听服务端口,等待客户端连接,连接后可以生成用于传输数据的Socket创建服务端创建客户端客户端发送消息服务端接收消息也可以使用Netty很方便的实现socket编程Netty介绍简介按照官方定义,它是一个异步的、基于事件 Client/Server 的网络框架,目标是提供一种简单、快速构建网络应用的方式,同时保证高吞吐量、低延时、高可靠性。Netty 的原创 2022-06-16 21:29:56 · 6689 阅读 · 0 评论 -
Sharding-Proxy分库分表和数据加密
文章目录Sharding-Proxy分库分表和数据加密使用场景配置文件讲解server.yamlconfig-encrypt.yamlconfig-sharding.yaml其他使用情况总结Sharding-Proxy分库分表和数据加密主要将实际项目中使用shardingshpere-proxy的经历经验,总结分享一下。使用场景公司规划研发了两款针对政务新媒体和数字乡村的SaaS平台,作为新的利润增长点。考虑到以后的用户数量和数据数量,决定按照租户(签约客户)进行分库分表。对于一些敏感数据,例如身原创 2022-04-08 23:27:10 · 2442 阅读 · 0 评论