- 博客(169)
- 资源 (4)
- 收藏
- 关注
原创 Spark依赖包加载顺序和冲突解决方案
Spark 依赖包来源我们知道Spark application运行加载依赖有三个地方:SystemClasspath -- Spark安装时候提供的依赖包 Spark-submit --jars 提交的依赖包 Spark-submit --config "spark.{driver/executor}.extraClassPath=someJar"提交的依赖包Spark...
2019-05-31 21:16:43 9493 1
原创 统计HBase表记录条数的方法
这是最简单直接的操作,但是执行效率非常低,适用于百万级以下的小表RowCount统计!这种方式效率非常高!利用了hbase jar中自带的统计行数的工具类!三、利用hbase.RowCounter包执行MR任务。一、hbase-shell的count命令。
2024-04-01 14:41:12 1274 1
转载 Gradle compileOnly, implementation, api
依赖的库只能自己库本身访问,举个例子,A依赖B,B依赖C,如果B依赖C是使用的implementation依赖,那么在A中是访问不到C中的方法的,如果需要访问,请使用api依赖。链接:https://www.jianshu.com/p/0695df9f1e8d。效果相同,只在release模式和打包release包情况下有效。效果是一样的,只在编译的时候有效, 不参与打包。效果一样,在单元测试和打包测试apk的时候有效。效果一样,只在打包的时候有效,编译不参与。效果相同, 在debug模式下有效。
2024-03-17 16:36:48 300
转载 lombok @equalsAndHashcode的是与非
虽然接触到lombok已经有很长时间,但是大量使用lombok以减少代码编写还是在新团队编写新代码维护老代码中遇到的。我个人并不主张使用lombok,其带来的代价足以抵消其便利,但是由于团队编码风格需要一致,用还是要继续使用下去。使用期间遇到了一些问题并进行了一番研究和思考,记录一下。
2024-03-17 16:04:27 198
原创 Elasticsearch 集群状态查看
注 : 本文中笔者在自己本机运行了两个Elasticsearch节点, 故ip都是一样的. 但是两个节点的端口和节点名是不同的.1 /_cat/ 显示所有_cat相关的url。, 并展示所属机器的配置信息.所在机器的运行状态信息.
2024-02-21 10:23:13 687
原创 Java 8 Stream() & paralellStream()
常见的错误是在parallelStream里处理并发写入数据到Map结构中,导致多线程问题。parallelStream() 多线程,需要控制并发安全,常用语数据量大的情形。Stream() 线程安全,常用语数据量较小的情形。
2023-07-05 14:21:06 238
原创 数据仓库、数据集市、数据湖
有案例才有鉴别,有的人找了数据湖的始作俑者AWS来说明数据湖是什么东西,比如下图:但光看产品的介绍,不懂数据的人也许会觉得数据湖很厉害,而懂数据的人也许会觉得仅是一堆数据仓库技术的堆砌包装而已,你看上面那张框架图,哪个。有案例才有鉴别,有的人找了数据湖的始作俑者AWS来说明数据湖是什么东西,比如下图:但光看产品的介绍,不懂数据的人也许会觉得数据湖很厉害,而懂数据的人也许会觉得仅是一堆数据仓库技术的堆砌包装而已,你看上面那张框架图,哪个。
2023-07-05 14:13:03 32
原创 ‘SSLError(SSLCertVerificationError(1, ‘[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed:
先查看系统时间,如果系统时间错误,先通过更改正确的系统时间。pip 安装包包错,网站不信任,需要验证。
2023-04-20 13:55:06 1584
原创 Retry 框架总结
1 Guava RetryingGitHub - rholder/guava-retrying: This is a small extension to Google's Guava library to allow for the creation of configurable retrying strategies for an arbitrary function call, such as something that talks to a remote service with flaky u
2023-04-12 15:39:02 83
原创 Docker Dockerfile
Dockerfile(12) - HEALTHCHECK 指令详解_dockerfile healthcheck_thlzjfefe的博客-CSDN博客
2023-04-07 10:08:27 267
原创 时间同步服务 Chrony 和 NTP
Linux时间服务(ntp和chrony) - 知乎再见 NTP,是时候拥抱下一代时间同步服务 Chrony 了 - 奇妙的 Linux 世界
2023-03-28 10:19:51 122
原创 ElasticSearch Scroll API 大量数据查询
这里需要设置size的大小(每一页多少数据),同时也需要设置scroll 告诉每个scroll保留多长时间,这里的时间是处理完每页所用的时间。这里需要说明中间过程执行的scrollId不需要清理,api会自动更新有效时间等,只需要清理最后一个scrollId对应的context。ElasticSearch 要查询大量数据的时候,比如全量数据遍历的时候,最好使用scroll search api。使用新获得的scrollId传递给SearchScrollRequest,遍历所有关联的数据。
2023-03-27 09:43:48 509
原创 Flink ProcessFunction
同一个key,若是有多个timer注册,则只会保留时间最小的那个。processingTime --> wall clock 触发。eventTime --> waterark 触发。用于两个数据量合并情况。
2023-03-06 17:39:18 88
转载 Flink WaterMark 详解
在进行窗口处理时,不可能无限期的等待延迟数据到达,当到达特定watermark时,认为在watermark之前的数据已经全部达到(即使后面还有延迟的数据), 可以触发窗口计算,这个机制就是 Watermark(水位线),具体如下图所示。如果水位线设置的过于宽松,好处是计算时能保证近可能多的数据被收集到,但由于此时的水位线远落后于处理记录的时间戳,导致产生的数据结果延迟较大。如果设置的水位线过于紧迫,数据结果的时效性当然会更好,但由于水位线大于部分记录的时间戳,数据的完整性就会打折扣。3.2 水位线分配器。
2023-02-23 18:04:59 1364
原创 AWS ALB & ELB
使用AWS Application Load Balancer实现基于主机名的路由分发 | 亚马逊AWS官方博客aws 负载均衡clb/nlb/alb_aws nlb_mocas_wang的博客-CSDN博客关于AWS负载均衡器的使用_BAStriver的博客-CSDN博客
2023-02-20 18:18:42 421
原创 Lombok Constructor Annotation
根据final 和@NotNull 修饰的属性来生成构造函数。生成一个所有属性的构造函数。生成没有参数的构造函数。
2022-12-09 15:59:31 116
转载 Spring Batch
spring batch简介 spring batch是spring提供的一个数据处理框架。企业域中的许多应用程序需要批量处理才能在关键任务环境中执行业务操作。这些业务运营包括: 无需用户交互即可最有。批处理框架 Spring Batch - licj的博客 - 博客园。
2022-11-23 21:11:13 216
原创 CompletableFuture
Callable --> Future (get() 阻塞等待结果,或者while一直等待结果)等结果完成后,自动触发回调方法。a) 提供要运行的任务。
2022-11-18 14:45:05 310
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人