- 博客(2164)
- 资源 (69)
- 问答 (17)
- 收藏
- 关注
转载 开源OLAP引擎(ClickHouse、Doris、Presto、ByConity)性能对比分析
TPC-DS(Transaction Processing Performance Council Decision Support Benchmark)是一个面向决策支持系统(Decision Support System,简称DSS)的基准测试,该工具是由TPC组织开发,它模拟了多维分析和决策支持场景,并提供了99个查询语句,用于评估数据库系统在复杂的多维分析场景下的性能。每个查询都设计用于模拟复杂的决策支持场景,包括跨多个表的连接、聚合和分组、子查询等高级SQL技术。
2023-05-29 22:44:41
22
原创 MapStruct 快速入门
MapStruct 是一个代码生成器,极大地简化了 Java Bean 之间映射的实现。通过简单的配置就能快速实现字段映射,非常快速,安全,简单。
2023-05-26 08:29:25
21
原创 OpenCSV 3.8 快速实践
OpenCSV 是一个轻量级的 Java CSV 解析器。今天我们一起看看基于 OpenCSV 的 CSV 解析示例。OpenCSV 提供了 CSV 解析的大部分特性。OpenCSV 比较受欢迎的原因是在 Java 中没有任何内置的 CSV 解析器。
2023-05-25 08:30:29
18
原创 MyBatis XML 映射器 Mapper 增删改查
MyBatis 的真正强大在于它的语句映射,这是它的魔力所在。由于它的异常强大,映射器的 XML 文件就显得相对简单。如果拿它跟具有相同功能的 JDBC 代码进行对比,你会立即发现省掉了将近 95% 的代码。MyBatis 致力于减少使用成本,让用户能更专注于 SQL 代码。
2023-05-20 15:39:20
44
原创 Mybatis Type interface xxxMapper is not known to the MapperRegistry
不一致,所以才导致上述异常的出现。如果要使用 Mapper 代理开发必须满足。核心配置文件可以知道需要在 resource 根目录下有一个。发现命名空间与我们 UserMapper 接口的包路径。配置文件,检查发现没有问题。上述异常信息的出现一般是因为。在执行 MyBatis。配置文件,命名空间为。
2023-05-17 23:10:20
31
原创 Mybatis 快速入门
从 SQL 映射文件可以看到两个查询语句的返回类型都是 POJO 类User// 主键ID private long id;// '姓名' private String name;// 年龄 private int age;// '邮箱' private String email;return id;return age;} }
2023-05-17 08:37:05
36
原创 Flink 源码解读系列 State
外部 State API 是对外部用户开放的稳定 API,需要使用这种 API 来开发应用程序。开发者 API(Internal API)是对内部开发者使用的 API,是不稳定的,可能会随着版本迁移发生变化。开发者 API(Internal API)在形式上继承了对外 API
2023-05-13 16:08:37
32
原创 Flink 源码解读系列 CheckpointCommitter
对于那些依赖于不支持回滚的状态后端的 Sink,当前检查点机制并不是完全适合。当处理这样的系统时,如果想要保证 Exactly-Once 语义,那么既不能在创建快照时提交数据(如果 Sink 的另一个实例失败了可能会导致对相同数据的重放),也不能在接收检查点完成通知时提交数据(因为后续失败将使我们不知道数据是否被提交)。
2023-05-07 23:53:11
37
转载 基于 TiDB + Flink 实现的滑动窗口实时累计指标算法
当前的市场环境对产品运营提出了更高的要求,特别是对数据指标实时性的要求日益严格。为了能够实时监测数据动态和特征用户的状态,我们采用了分布式数据库 TiDB 和计算框架 Flink 的组合,提出了一种基于滑动窗口的实时累计指标算法。该算法能够在市场营销活动中发挥积极的作用,显著改善用户体验并促进收益增长。
2023-05-07 15:35:49
46
原创 Flink 1.13.5 本地运行 ClassNotFoundException: xxx
这些依赖项是 Flink 核心依赖项,在实际运行时已经被加载,只需要对它们进行编译,不应将它们打包到项目生成的应用程序 jar 文件中
2023-05-04 23:12:08
44
转载 Flink DataStream 开发打包问题
DataStream 作业开发时往往会遇到一些 jar 包冲突等问题,本文主要讲解作业开发时需要引入哪些依赖以及哪些需要被打包进作业的 jar 中,从而避免不必要的依赖被打入了作业 jar 中以及可能产生的依赖冲突。
2023-05-04 19:28:17
67
原创 Maven 项目 POM 文件 Ignored
新创建的 Maven 项目模块 Module 与之前被删除的模块 Module 重名,由于相同名称的 Module 在之前被创建过,因此在 IDEA 中留有痕迹。解决办法比较简单,只需要将 Maven 配置项。
2023-04-30 22:39:15
36
原创 Spring Boot 配置文件无法自动提示
首先需要明确的是自动提示功能不是 SpringBoot 技术给我们提供的,而是 idea 给我们提供的。自动提示功能消失的原因可能比较多,在这我们主要解决的是 idea 认为我们写的配置文件不是一个配置文件,所以不提供自动提示功能。在开发 Spring Boot 应用过程中,我们希望在 application.yml 配置文件中 idea 会给我们进行提示,比如我们输入。如果没有看到模块对应的配置文件,那么导致无法自动提示原因可能就是在这。下选择自动提示功能消失的模块名称,在这我们的模块名称为。
2023-04-28 22:20:46
139
原创 SpringBoot 2.x 快速搭建入门项目
为了实现调用 hello 接口返回,需要实现一个} }为了实现调用 hello 接口返回,需要实现一个} }
2023-04-24 00:09:57
54
转载 指标圈选在数据应用平台的实现
开发数据应用平台基于数仓的商机表输出的es索引,配置自定义数据圈选规则,并对圈选出的指定商机创建数据应用任务。数据应用任务根据场景配置调用时间窗口等规则定时调用,处理后的数据应用至各个业务场景。
2023-04-21 23:56:16
40
原创 Flink 通过 ListCheckpointed 和 CheckpointedFunction 实现操作 OperatorState 的有状态函数
Flink 实现操作 OperatorState 的有状态函数,有两种实现方式:- 第一种是通过实现 CheckpointedFunction 接口- 第二种是通过实现 ListCheckpointed 接口
2023-04-21 23:18:59
48
原创 Flink DataStream 富函数 RichFunction
很多时候,我们需要在函数处理第一条记录之前进行一些初始化的工作或者获得函数执行上下文的一些信息,以及在处理完记录后做一些清理工作。而 DataStream API 中的富函数 RichFunction 就提供了这样的机制。DataStream API 提供了一类富函数,和普通函数相比可对外提供跟多的功能。
2023-04-17 08:40:52
54
原创 Flink DataStream Kafka 序列化 JSONKeyValueDeserializationSchema
在我们在使用 Flink Streaming Kafka Connector 从 Kafka 中读取时,一般会采用 SimpleStringSchema 来反序列化 Kafka 中的数据。如果是 Kafka 中的数据是 JSON 格式,然后采用 Gson 或者 FastJson 来解析数据。除了使用这种方式之外,Flink 为我们内置实现了一个 KafkaSerializationSchema 来帮我们解析 Kafka 中的 JSON 格式数据,即 JSONKeyValueDeserializa
2023-04-16 16:14:10
60
原创 Flink DataStream Kafka 序列化 KafkaSerializationSchema 与 KafkaDeserializationSchema
序列化 Schema 描述了如何将 Flink 处理的数据类型(Java/Scala对象)转换为 Kafka 可以接受的数据类型。反序列化 Schema 描述了如何将 Kafka 中的数据转换为 Flink 可以处理的数据类型(Java/Scala对象)。
2023-04-16 13:48:39
43
原创 Flink 1.13.5 JsonParseException: Unrecognized token ‘xxx‘: was expecting
在使用 Flink Streaming Kafka Connector 从 Kafka 中读取时,反序列化器指定 `JSONKeyValueDeserializationSchema` 抛出 org.apache.flink.shaded.jackson2.com.fasterxml.jackson.core.JsonParseException: Unrecognized token 'a': was expecting 异常
2023-04-16 00:25:22
41
转载 转转用户画像系统建设与实践
转转作为二手电商交易领域的领军者,随着这几年的高速发展,用户数和业务量都急剧增长,为了更好的服务用户,并持续增长,产品运营的战略战术也会随之发生变化。在创业早期产品一般以粗放式运营为主,力求快速获取用户、推广产品,领跑赛道。业界也曾流传着这样的段子,产品有三宝:弹窗、浮层、加引导;运营有三宝:短信、push、加红包。然而到了中后期公司都会面临的三大问题是降本提效、持续增长、用户体验,所以基于数据的精细化运营成了大家的必然选择
2023-04-14 23:47:45
45
原创 Flink DataStream 1.11 Kafka Connector 实现读写 Kafka
本文主要介绍 Flink 1.11 版本中如何使用 DataStream 方式利用 Kafka Connector 从 Kafka 中读取数据并写到 Kafka 中,主要讲述了 Kafka Connector 的功能
2023-04-13 22:22:44
59
转载 有赞数据降本利器:无用数据下线自动化
基于上面的背景,我们意识到:不计成本的成本治理,是在耍流氓,自动化下线,势在必行。当然,在开展这项工作之初,我们还是很严谨地分析了现状、问题,并且评估了预期的收益。
2023-04-12 23:46:42
259
转载 网易互娱数据成本优化治理实践
我们总体的优化方向分为存储和计算两大部分,基于日志的处理流向分不同阶段进行优化。对于存储部分,对互娱数仓总体存储进行占比分析,我们发现ODS层数据占据了全项目的75%的存储空间。因此,我们的首要目标便是优化ODS层的数据存储,分为存储前、存储时、存储后三个子目标进行优化。对于计算部分,由于计算任务众多,我们优先针对耗时较长、逻辑通用性较高的P1指标的计算任务进行优化,分为计算前、计算时两个子目标进行优化。
2023-04-12 23:12:35
310
转载 如何基于 Apache Doris 构建简易高效的用户行为分析平台?
用户行为分析是企业了解用户的重要方式之一,可以从点击、登录、观看、跳出、下单购买等多维角度还原用户动态使用场景和用户体验,通过对用户行为埋点数据进行分析,可以详细、清楚地了解用户的行为习惯,从中发现用户使用产品的规律,以用于精确营销、产品优化,从而驱动业务实现增长。
2023-04-12 22:12:41
45
转载 MaxCompute 与 Calcite 的技术和故事
2019大数据技术公开课第一季《技术人生专访》,来自阿里云计算平台事业部高级开发工程师雷春蔚向大家讲述了MaxCompute 与 Calcite 的技术和故事。 具体内容包括: 1) 什么是查询优化器;2)MaxCompute查询优化器的具体实践;3)MaxCompute后续计划;4)从校招到阿里巴巴工程师到Calcite committer,他经历了怎样的个人成长。
2023-04-11 23:34:59
30
转载 云音乐用户增长预测之Prophet模型
Prophet模型是Meta公司开发并应用于Facebook/Twitter等产品的开源时间序列模型,适用于MAU/DAU和新增的预测。在云音乐的业务中,此模型不仅能用于DAU预测,也能用于评估活动和波动分析等多种场景。
2023-04-10 23:20:03
33
转载 Apache Calcite:Hadoop 中新型大数据查询引擎
Apache Calcite 是面向 Hadoop 新的查询引擎,它提供了标准的 SQL 语言、多种查询优化和连接各种数据源的能力,除此之外,Calcite 还提供了 OLAP 和流处理的查询引擎。正是有了这些诸多特性,Calcite 项目在 Hadoop 中越来越引入注目,并被众多项目集成。
2023-04-09 09:56:07
73
转载 网易有数 指标波动多大才算是异常?
在各种业务指标中,数据往往不是静止不变的,尤其是当一些核心的指标发生了变化、波动时,就需要判断这样的波动是否属于异常的情况。那么波动了多大才能算是异常?本文将结合一些实际业务场景,来说明数据波动的异常判别方法。
2023-04-08 23:38:43
62
转载 基于Doris构建的小程序私域流量增长
小程序目前使用百度云 Palo(Apache Doris 企业版)承载其精细化运营业务。通过本文可以帮助大家了解在 Doris 中使用全局字典、BITMAP 等功能时遇到的问题、解决思路和优化方案。
2023-04-08 16:00:26
53
转载 百度 Doris 在用户画像人群业务的应用
基于用户画像进行人群定向是一种广泛的业务场景,在广告、增长等领域有普遍的应用。如何能够高效分析、规则筛选,特别是在超大规模的互联网业务场景,是一个有挑战性的技术问题。在这个分享里面,我们会介绍一种基于Doris来实现海量用户tag下分析与圈选的高性能实现。
2023-04-08 13:25:40
109
转载 多数据源场景下360如何构建统一查询?
随着业务的不断增多,为满足不同场景下对计算时延和吞吐的需求,各式各样的数据源大显身手。然而,由于不同数据源的发展历程不同,迭代速度不一,无法向用户提供统一的数据处理范式。且数据源所处介质天然隔离,交叉关联分析阻碍重重,导致数据人员要为此承担高额的学习和分析成本。那么面对这些问题,360 是如何构建高效统一的 SQL 查询引擎呢?以下内容整理来自 ArchSummit 全球架构师峰会(深圳站)2019 奇虎 360 大数据资深研发工程师 刘思源的演讲。
2023-04-08 00:03:07
34
大型网站技术核心原理与案例分析
2015-12-25
Android应用开发揭秘
2015-12-17
Android开发秘籍
2015-12-17
Android开发精要
2015-12-17
Android技术内幕.系统卷
2015-12-17
Android高级编程
2015-12-17
JavaEE企业应用实战-Struts2+Spring3+Hibernate整合开发
2015-12-17
Mahout算法解析与案例实战
2015-12-16
LINUX内核设计与实现
2015-12-14
重构-改善即有代码的设计
2015-12-14
算法艺术和信息学竞赛
2015-12-14
apache-mahout-distribution-0.11.1-src
2015-11-30
Better bitmap performance with Roaring bitmaps
2023-03-06
美团外卖离线数仓建设实践
2023-02-19
Redis 入门指南
2017-06-02
Apache Sqoop Cookbook
2016-11-14
Apache Spark源码剖析
2016-11-12
Elasticsearch.The.Definitive.Guide
2016-10-21
Shell脚本学习指南
2016-05-28
精通Spring
2016-02-07
Java Persistence with MyBatis 3
2016-02-06
Spring-Jar-4.2.4
2016-01-28
log4j所需jar包
2016-01-20
Hadoop实战中文版
2015-12-25
大规模分布式系统架构与设计实战
2015-12-25
Hive Range Between 结果错误问题
2023-02-28
Storm Trident 抛异常不重发
2018-11-23
hive SERDEPROPERTIES 实现正则过滤
2018-06-05
Flink 关于窗口Window的问题
2018-01-17
Hive 运行SQL 重定向文件 输出WARN日志
2017-06-13
Hadoop Distcp报错 队列问题
2017-01-17
Hive Join 失败
2016-11-28
Hive 查询问题
2016-09-07
Hive LOAD DATA 错误
2016-07-23
[ElasticSearch] 中文字符串精确搜索 term 搜不到结果
2016-07-05
mysql group by 统计问题
2016-06-17
大型分布式网站架构的演进
2016-05-16
ubuntu IntelliJ Idea设置快捷方式问题
2016-03-08
罗技键盘 k380 连接上 没有任何的反应?
2016-03-06
Maven archetype:generate报错
2016-01-25
Log4j问题
2016-01-16
Java Stringbuilder调用append()方法报错
2015-12-20
nosql开放性问题
2015-12-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人