- 博客(348)
- 资源 (1)
- 收藏
- 关注
原创 FineBI和FineReport的区别
FineBI 和 FineReport 是帆软软件旗下的两款数据分析工具。两款产品各有区别及各自的优势所在。本文介绍两款产品的异同点及兼容性。FineReportFineBI工具类型报表工具:报表是企业信息化必不可少统计分析工具,主要实现一些企业固定的月报、季报、关键数据的统计分析商业智能工具:侧重于数据分析,改变之前传统做表的方式,交互性更好,性能更加强大目的旨在统计或者告诉决策者:过去发生了什么,什么正在发生旨在将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策。
2022-10-19 09:21:54 6834
原创 FineBI产品简介
FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是新一代大数据分析的 BI 工具,旨在帮助企业的业务人员充分了解和利用他们的数据。FineBI 凭借强劲的大数据引擎,用户只需简单拖拽便能制作出丰富多样的数据可视化信息,自由地对数据进行分析和探索,让数据释放出更多未知潜能。
2022-10-19 09:14:52 5937 1
原创 如何写好一个技术方案
要求:实现一个飞机运力合同查询接口,入参为运力大区入参:{"area": "南美"}出参:{"date": "***"}方法名:CapacityService.queryPlan入参:{"cnArea": "南美"}出参:{"date": "***"}技术方案 2 是更好的,为什么?测试、前端 、后续要接手该接口的人都能够一下子找到你的接口并清楚知道输入输出是什么。另外,1 和 2 的入参一个 area 一个 cnArea,那么到底哪个更对呢?
2022-10-11 10:49:28 751
原创 实时计算Flink+Hologres
对于主键关联的场景(即 Join 条件分别是两条流的主键),我们可以将 Join 的工作下沉到 Hologres 去做,通过 Hologres 的局部更新功能来实现宽表 Merge,从而省去了 Flink Join 的状态维护成本。数据实时入仓形成了 ODS 层的数据后,通常需要将事实数据与维度数据利用 Flink 多流 Join 的能力实时地打平成宽表,结合 Hologres 宽表极佳的多维分析性能,助力上层业务查询提速。目前该方案已在阿里巴巴内部、众多云上企业生产落地,成为实时数仓的最佳解决方案之一。
2022-10-11 10:40:04 2846
原创 Flink CDC数据同步
一、什么是FLinkApache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。接下来,我们来介绍一下 Flink 架构中的重要方面。
2022-10-11 09:51:24 3706 1
原创 Flink SQL CDC实践以及一致性分析
在Flink 1.11引入了CDC机制,CDC的全称是Change Data Capture,用于捕捉数据库表的增删改查操作,是目前非常成熟的同步数据库变更方案。Flink CDC Connectors是Apache Flink的一组源连接器,是可以从MySQL、PostgreSQL数据直接读取全量数据和增量数据的Source Connectors,开源地址:https://github.com/ververica/flink-cdc-connectors。
2022-10-11 09:49:17 859
原创 Sql Server CDC配置
CDC(Change Data Capture),即数据变更抓取,通过为源端数据源开启CDC,ROMA Connect可实现数据源的实时数据同步以及数据表的物理删除同步。在“数据库角色成员身份”中选择“db_datareader”、“db_owner”和“public”。单击“新建查询”,选择你需要开启CDC的数据库。在“映射到此登录名的用户”中选择配置CDC的数据库,例如:fdiromatest。其中,baris替换为实际需要开启CDC配置的表名。其中,baris替换为实际需要开启CDC配置的表名。
2022-10-11 09:30:18 3291 1
原创 Flink cdc技术实践
CDC 的实现方式主要有两种,分别是基于查询和基于日志:基于查询:查询后插入、更新到数据库即可,无须数据库的特殊配置以及账号权限。它的实时性基于查询频率决定,只能通过提高查询频率来保证实时性,而这必然会对 DB 造成巨大压力。此外,因为是基于查询,所以它无法捕获两次查询之间数据的变更记录,也就无法保证数据的一致性。基于日志:通过实时消费数据的变更日志实现,因此实时性很高。而且不会对 DB 造成很大的影响,也能够保证数据的一致性,因为数据库会将所有数据的变动记录在变更日志中。
2022-10-10 15:48:21 2307
原创 kafka清除topic内容命令(好用)
./kafka-configs.sh --zookeeper 10.106.176.71:2181 --entity-type topics --entity-name rs_ods_my_sp_gradeandweight_si --alter --add-config retention.ms=10000
2022-06-25 10:57:16 1013
转载 kafkas删除topic数据
生产环境中,有一个topic的数据量非常大。这些数据不是非常重要,需要定期清理。要求:默认保持24小时,某些topic 需要保留2小时或者6小时主要有3个:1. 基于时间2. 基于日志大小3. 基于日志起始偏移量详情,请参考链接:Kafka日志清理之Log Deletion_朱小厮的博客-CSDN博客_log.cleanup.policy接下来,主要介绍基于时间的清除!kafka版本为: 2.11-1.1.0zk版本为: 3.4.13# 启用删除主题delete.topic.enable=true
2022-06-13 10:42:08 7125 1
原创 Maven打包,缺少依赖问题解决(实测)
<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-assembly-plugin</artifactId> <version>2.6</version> <executions> <execution> <phase>packa
2022-06-09 18:16:27 1634
原创 git获取commit id
1.查看提交记录git log2.获取完整commit id git rev-parse HEAD3.获取short commit id git rev-parse --short HEAD
2022-05-26 15:57:43 4643
原创 rabbitmq系列问题解决:406, “PRECONDITION_FAILED - inequivalent arg ‘durable‘
1. 安装rabbitmq,查看官网文档: https://www.rabbitmq.com/#getstarted 由于我是先安装了rabbitmq后自己随手创建了queue,后面又按照官方给的"hello world"例子去测试,结果发生了“406, "PRECONDITION_FAILED - inequivalent arg 'durable'” 这个错误信息。 1. 先在管理页面创建的queue 2. 创建的exchanges ..
2022-05-26 15:56:07 5659
原创 Mysql连接问题
连接MySQL长时间不连接后报错`com.mysql.cj.core.exceptions.ConnectionIsClosedException: No operations allowed after connection closed.`的解决办法报错:com.mysql.cj.core.exceptions.ConnectionIsClosedException: No operations allowed after connection closed.添加&autoRe.
2022-05-17 10:32:21 1090
原创 FlinkCDC入门
一.背景数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的替代。我们评估了几种开源产品,canal,debezium,flinkCDC等产品。作了如下的对比: 组件 Canal Debezium Flink 开源方 阿里 redhat ..
2022-05-09 18:24:58 2598 1
原创 flink高可用
Exactly-Once Exactly-Once*:即一条输入数据只会影响一次输出结果,以统计事件个数的count()的任务为例,输入是10条,那么输出应该是 count=10*。对应两种传输语义的底层机制是: BeginTransaction:开启一个新事务,每次checkpoint可以看做是一次事务的提交,所以两次cp之间是一个完整的事务 Precommit:Source/Sink进行snapshot时,进行事务的pre-commit操作 ...
2022-05-09 18:22:26 856
原创 java时间日期转换,json转map
public static String getNowDate(Date d) { SimpleDateFormat sbf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); String format = sbf.format(d); return format;}public static Map<String,String> transJsonToMap(JSONObject source) { Map&l.
2022-05-09 17:54:00 527
原创 string转json代码
public class test { public static void main(String[] args) { // String value="{'colname':'id,fcty_code,bill_id,pd_lbl_code,pd_code,expiry_date,pun_time,batch_no,qty,weight,create_time,elig_the_time,slgtr_time,firm_type,sync_status,material_sta.
2022-04-26 10:55:23 226
转载 java插入postgresql问题(时间格式问题)
java插入postgresql问题:ERROR: column is of type timestamp without time zone but expression is of type character varying建议:You will need to rewrite or cast the expression.解决:jdbc:postgresql://127.0.0.1:5432/testdb?stringtype=unspecified后面添加stringtype=unsp
2022-04-19 18:35:16 1337
转载 json处理
首先引入依赖包,这里使用的是alibaba的fastjson; <!-- fastjson依赖 --> <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.76</version> </dependency...
2022-04-14 08:55:21 173
原创 flink数据源不稳定导致宕机问题
flink应用数据源不稳定导致程序宕机_zhou_zhao_xu的博客-CSDN博客_flink不稳定错误异常日志org.apache.flink.runtime.JobException: Recovery is suppressed by NoRestartBackoffTimeStrategyat org.apache.flink.runtime.executiongraph.failover.flip1.ExecutionFailureHandler.handleFailure(ExecutionF
2022-04-11 11:52:33 1661
原创 sqlserver日常用到的时间处理函数
select getdate()2004-09-12 11:06:08.177整理了一下SQL Server里面可能经常会用到的日期格式转换方法:举例如下:select CONVERT(varchar, getdate(), 120 )2004-09-12 11:06:08select replace(replace(replace(CONVERT(varchar, getdate(), 120 ),'-',''),' ',''),':','')20040912110608select C.
2022-04-11 10:57:41 646
原创 sqlserver 中datetime类型计算
SELECT FFactoryCode, sum( FPartialOpen ) AS sum_FPartialOpen,convert(nvarchar(10),fdate,120)FROM MY_SP_GradeAndWeightWHERE FDelete = 0 and FFactoryCode=103GROUP BY FFactoryCode, convert(nvarchar(10),fdate,120) ORDER BY co...
2022-03-28 10:21:14 847
原创 VMware虚拟机打不开/dev/vmmon无此文件
https://jingyan.baidu.com/article/48b558e3e815737f38c09a23.htmlhttps://jingyan.baidu.com/article/48b558e3e815737f38c09a23.html
2022-02-28 10:56:05 486
转载 修改MAC文件最大打开数
最近在使用MAC对接口进行压测,发现多线程高并发的时候,会有一些小坑,这里整理下,方便后续查看。1、容易出现unable to create thread 6: Too many open files。原因是:文件句柄数不够,需要调高ulimit 里面的open file 的值。输入:ulimit -a 查看当前最大的文件打开数量(默认为256)。2、接下来使用ulimit -n 命令来调高这个值(可能会出现权限错误)-bash: ulimit: open files: cannot mod
2022-02-28 10:53:39 2269
原创 idea选取分支问题
1.git选取分支问题(1)右键->git->repository->Branches(2)New Branch(3)右键Chenout,可以新建自己的分支上传分支
2022-02-22 17:42:58 871
原创 kafka压测
实时ETL流程测试文档编号 版本号 V1.0 名称 实时ETL流程测试文档 总页数 正文 编写日期 审批 目录1. 测试目的本次测试主要对基于Flink的实时ETL系统各个环节跑通测试各个组件功能可用性 测试数据一致性、实时性、完整性2. 测试方法采用python脚本模拟生成数据,通过Kafka作为消息队列,Flink完成实时抽取转换,输出数据到HDFS测试过程主要分为以下3
2022-02-22 11:10:19 1634
原创 CDH增加节点
CDH增加节点1 机器配置在台机器上输入:vim /etc/hosts(省略)修改本机显示hostnamevi /etc/sysconfig/networkHOSTNAME=scdh01生效:service network restart2 卸载自带的jdk(如果有)[root@scdh01 ~]# rpm -qa |grep jdkjava-1.8.0-openjdk-headless-1.8.0.222.b03-1.el7.x86_64java-1.7.0-o.
2022-02-22 11:07:45 2015
原创 CDH集群安装文档
实时大数据平台安装文档文档编号 版本号 V1.0 名称 实时大数据平台安装文档 总页数 正文 编写日期 审批 1. 引言1.1 编写目的该手册旨在记录部署大数据CDH集群的流程,为后续作业提供参考,提高利用CM部署集群的效率和减少出现问题的可能性,帮助现场部署人员更好,更快地完成部署任务。1.2 环境及术语该手册要求,现场部署环境已经安装好操作系统,建议centos7.4,且网络已经
2022-02-22 11:01:10 1994
原创 Canal数据同步故障
1.背景 2022-01-2516:54收到研发反馈订单同步出现异常 2022-01-2517:10定位到问题,同步程序报错发送的消息体超过最大限制 2022-01-2517:25完成配置优化及重启 2022-01-2517:34完成数据验证,延迟消息已自动补回 2.异常分析1.报错分析ERRORc.a.o.canal.connector.kafka.producer.CanalKafkaProducer-java.util....
2022-02-21 09:53:16 3711
原创 项目运行报commons-io缺失
1.项目运行过程中,报相关的io.jar包缺失,实际是由于在maven中相关的jar冲突造成的,解决办法,根据响应缺失jar包,找到maven中仓库jar包位置,整体删除,并重新导包!
2022-02-19 16:17:21 684
转载 FineBI概述
还是数据可视化工具Tableau、FineBI?不禁联想起在微软系统出现之前,程序员的电脑系统还是用的linux,只能通过各种复杂的指令来实现字符的简单可视化;而当win系统普及于世后,计算机从此突破了技术人群的限制,交互方式从编码式实现了可视化的巨大飞跃,这才孕育出了大数据时代的可视化分析。每一次技术时代的变革和突破,都将意味着一次新时代的生产力前进的到来,数据分析同样也是如此。Excel作为数据分析界的老牌软件,就好比微软之前的linux系统,越来越被人不断吐槽:容积小,几十万条
2022-02-18 12:21:44 15154 1
原创 DataX概述
1.概述DataX是阿里开源的的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。2.设计理念异构数据源离线同步是将源端数据同步到目的端,但是端与端的数据源类型种类繁多,在没有 DataX 之前,端与端的链路将组成一个复杂的网状结构,非常零散无法将同步核心逻辑抽象出来,DataX 的理念就是作为一个同步核心载体连接连接各类数据源,当我们需要数据同步时,只需要以插件的
2022-02-18 12:16:48 2545
原创 实时数仓Hologres
1.概述Hologres是阿里巴巴自主研发的一站式实时数仓引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),与MaxCompute、Flink、DataWorks深度融合,提供企业级离在线一体化全栈数仓解决方案。2.功能概述多场景查询分析Hologres支持行存、列存等存储模式和多种索引类型,同时满足简单查询、复杂查询、即席查询等多样化的分
2022-02-18 11:44:05 1941 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人