- 博客(243)
- 资源 (24)
- 问答 (3)
- 收藏
- 关注
原创 指标检测(四):业务阈值检测-基于规则引擎的业务异常检测
重点介绍项目中的趋势异常检测算法。本文主要介绍基于业务阈值设定的异常检测,作为自动化异常检测的业务补充监控方案。是的整套检测框架全面覆盖各种应用场景。基于业务规则阈值判断的异常检测,是对无监督自动化异常检测的一种人工补充。此方案依赖于专家规则的配置,建议搭配无监督自动化异常检测方案使用。
2024-12-02 19:38:21 934
原创 指标检测(三):趋势异常检测-基于Mann-Kendall检验
本文将重点介绍项目中的趋势异常检测算法。Mann-Kendall (MK) 算法是一种非参数统计方法,常用于检测时间序列数据中的单调趋势,并判断其显著性。Mann-Kendall算法使用与所有分布的时序数据的趋势分析,对数据较为鲁棒,在气象、环境监测等趋势监测领域较为常用。也能够应用到我们应用系统的指标检测中。
2024-12-02 19:37:39 689
原创 指标检测(二):波动异常检测-基于二阶导和距离寻找最大弯曲点
概述请参考系列文章(一)的概述本文将重点介绍项目中的波动异常检测算法。基于二阶导数和距离的 MBP 方法有效结合了曲率和全局形态信息,适用于波动型数据的异常检测。这种方法不仅考虑局部变化,还综合评估全局波动趋势。实际业务过程中,一个指标序列,可能有多个波动拐点,可以调整为寻找TopN个最大弯曲点。实际业务过程中,可以结合Quantile算法(在第一章中有详细介绍),进行过滤正常区间的候选点,增加准确率, 开源项目中也是加入了此项优化。
2024-11-30 15:30:15 661
原创 指标检测(一):绝对值/离群值异常检测
数据应用中,指标与业务息息相关。指标是数据的数值体现,数据驱动业务的思想基础上,指标的价值必然不会止于业务分析人员依靠业务积累而探寻出来。笔者看来,有意义的指标的价值客观存在,数据驱动–即需要让数据说话,让数据主动推动业务。其中一大价值点在于,把业务问题和业务亮点主动发现,并推动业务人员及时处理问题和推广亮点,积累正确的点,解决错误的点。业务发展,指标数量越来越多。如何能够快速识别系统各项异常指标,发现问题根因,并推动业务进行调改,是一项很重要的能力。
2024-11-30 15:23:41 870
原创 数据湖之Hudi:基于Spark引擎使用Hudi的DeltaStreamer组件工具
HoodieDeltaStreamer工具 (hudi-utilities-bundle中的一部分) 提供了从DFS或Kafka等不同来源进行摄取的方式,并具有以下功能:精准一次从Kafka采集新数据,从Sqoop、HiveIncrementalPuller的输出或DFS文件夹下的文件增量导入导入的数据支持json、avro或自定义数据类型管理检查点,回滚和恢复利用 DFS 或 Confluent schema registry的 Avro Schema支持自定义转换操作。
2023-01-19 16:00:35 2461 1
原创 数据治理:数据治理之道-数据文化-数据思维融入企业文化
在企业的数据管理和应用的实践中,应以业务目标为核心,以数据为基础,以技术为支撑,以制度为保障,将数据文化“内化于心,外化于行,固化于制”,将“数据驱动”应用到实际的工作中,使其成为员工的自觉行为,并做到“知行合一” 拥有数据思维才能发现数据价值。企业数据治理治的不仅是数据,更是企业全员的思维方式。数字化趋势下,**数字化转型是当今企业的重要战略目标**,良好的企业文化为员工提供了做选择时的指导方针,有利于企业数字化目标的实现。**良好的数据文化有利于企业更快地做出科学决策,从而推动技术和商业模式创
2023-01-19 00:42:58 3243
原创 数据治理:数据治理之道-组织机制-敏捷的治理组织
数据治理,敏捷组织,是能灵敏感知环境并迅速应对的组织。敏捷组织有如下特点:(1)架构灵活企业组织从传统的金字塔层级结构转向灵活的扁平结构,消除了上下级结构之间的治通壁垒,使其能够在应对前端多变的业务时聚焦于目标和行动,收放自如,柔性应对。(2)数据驱动企业经营从上级权威指令驱动转向数字驱动,数据成为企业的核心资产,用户数据流向决定产品和业务流向,并成为决策的重要依据。(3)员工能动在协作方式上,企业从传统绩效评价导向转变为自我驱动、团队协同模式。
2023-01-18 00:38:52 2222
原创 数据湖之Hudi基础:集成Spark
主要记录下的整合Spark操作,操作内容参考尚硅谷Hudi公开资料以及Hudi官方文档具体参看官方文档:https://hudi.apache.org/docs/0.12.1/quick-start-guide。Hudi集成spark
2023-01-18 00:18:54 1957
原创 数据湖之Hudi基础:核心原理
数据湖核心概念,copy on write,merge on read,Hudi的核心是维护表上在不同的即时时间(instants)执行的所有操作的时间轴(timeline)Hudi通过索引机制提供高效的upserts简称MOR表。包含列存的基本文件(.parquet)和行存的增量日志文件(基于行的avro格式,.log.*)。
2023-01-17 11:49:44 1099
原创 数据湖之Hudi基础:入门介绍和编译部署
Hudi手动编译部署。Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载,而且还允许创建高效的增量批处理管道。Apache Hudi可以轻松地在任何云存储平台上使用。
2023-01-16 17:09:05 1470 2
原创 数据治理:数据治理之道-数据战略
一组选择和决定,他们共同制定了实现高级目标的高级行动方案激动人心的数据管理愿景数据管理商业案例摘要,附带精选案例指导原则、价值观和管理远景数据管理的使命和长远目标数据管理成功的关键措施短期的数据管理方案目标数据管理的组织和角色及其职责数据管理的实施路线图数据管理的项目章程数据管理的范围说明数据战略是组织开展数据工作的愿景、目的、目标和原则。它包含数据战略规划、数据战略实施和数据战略评估。
2022-12-29 19:45:02 1014
原创 数据治理:企业数据治理蓝图
- 数据治理:治理是自顶向下的策略或活动,比如国家治理、公司治理。因此数据治理应该是企业顶层设计,战略规划方面的内容- 数据管理:是为实现数据和信息资产价值的获取、控制、保护、交付以及提升,对政策、实践和项目所作的计划、执行和监督。笔者认为,数据管理是执行和落实数据治理策略并在过程中给给与反馈,强调管理流程和制度,涵盖不同的管理领域,比如元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理、数据服务管理、数据集成- 数据管控:数据管控侧重执行层面,是具体落地执行所涉及的各种措施,例如数据建模
2022-12-29 00:40:08 1992
原创 数据治理:数据治理框架和标准
本文概述的是国内外的主流的数据治理框架和标准,作为指导学习,当然不同企业仍然是根据企业自身情况参考。而DCMM数据能力成熟度这个是每个数据处理企业比定的级,也是企业数据成熟度能力的一个参考项,越来越多的企业合作伙伴重视此项评级。国际上,主流的数据治理框架主要有:ISO数据治理标准、GDI数据治理框架、DAMA数据管理框架。对国际主流数据治理框架的理解,有助于我们建立符合自身业务需求的数据治理体系。
2022-12-28 22:58:01 4163
原创 数据治理:认识数据治理
# 数据治理是什么笔者自我理解就是:对数据进行任何规整处理,包括从数据从业务系统接入到最后被业务系统查询应用的这其中整个过程,都是数据治理。然而,不同数据团队或者不同企业对数据治理的理解和定义却不尽相同- 《一本书讲透数据治理》作者定义:所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资产管控手段,实现数据的看得见、找得到、管的住、用的好、提升数据质量和数据价值。
2022-12-28 19:24:14 2224
原创 Kafka监控EFAK(Kafka-eagle)部署与踩坑详细记录
Kafka图形化监控 EFAK,Kafka-eagle部署与踩坑详细记录。mysql的ke数据库的表创建语句;内存和CPU以及Version展示异常;ERROR - JMX service url[xxxx:9999] create has error,msg is java.lang.NullPointerException;java.rmi.ConnectException: Connection refused to host: xxxx;
2022-10-10 17:18:04 7632 2
原创 设计模式与应用:组合模式
详细介绍设计模式之组合模式通过递归手段来构造树形的对象结构,并可通过一个对象来访问整个对象树ComponentCompositeLeaf测试输出
2022-06-29 20:57:24 263
原创 设计模式与应用:中介者模式
在中介者模式中,类之间的交互行为被统一放在Mediator的对象中,对象通过Mediator对象同其他对象交互,Mediator对象起着控制器的作用MediatorPartnerMediatorColleagueConcreteColleagueClient 测试输出...
2022-06-29 20:25:15 201
原创 设计模式与应用:原型模式
原型模式介绍采取复制原型对象的方法来创建对象的实例使用Prototype模式创建的实例,具有与原型一样的数据特点根据介绍可知,原型模式的实现就是在原型类里实现一个clone()方法,当然Java类都继承了Object,都自动有Object的clone()方法,这是一个浅拷贝的方法。如果需要深度拷贝,可以自行重写clone方法,或者使用其他工具类看Object或具体拷贝方法即可...
2022-06-29 17:00:14 184
原创 设计模式与应用:桥接模式
桥接模式介绍与实现基于类的最小设计原则,通过使用封装,聚合以及继承等行为来让不同的类承担不同的责任,他的主要特点:ImplementorConcreteImplementorAbstractionRefined AbstractionClient输出...
2022-06-29 16:09:16 286
原创 设计模式与应用:命令模式
命令模式介绍与实践在面向对象的程序设计过程中,一个对象调用另一个对象,一般情况下的调用过程:创建目标对象实例,设置调用参数,调用目标对象方法但在有些情况下,有必要使用一个专门的类对这种调用过程加以封装,我们把这种专门的类叫做Command类ReceiverCommandInvoker测试小结此模式实际应用场景广泛,开发过程中或多或少都会使用到,只是不知觉是类似命令模式...
2022-06-29 15:20:43 222
原创 设计模式与应用:解释器模式
介绍解释器模式简单说,Interpreter模式是一种简单的语法解释器结构当有一个语言需要解释执行,并且你可将该语言中的句子表示为以恶搞抽象语法树时,可以使用解释器模式,而当存在以下情况时该模式效果最好:解释器模式在实际业务开发场景比较少[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9tM4SV80-1656483254392)(./img/interpreter-1.png)]代码UML[外链图...
2022-06-29 14:15:33 240
原创 设计模式与应用:访问者模式
介绍和实现访问者模式一个实体,不同的访问者有不同的行为操作,而且访问者的种类也可能需要根据时间推移而变化(行为可扩展)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-87MqGlKV-1656475245253)(./img/visitor-1.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1FcLckuH-1656475245253)(./img/visitor-2.png)]这里以公园(元素)和清洁工(访问者)的关系来描述这个模式
2022-06-29 12:01:35 182
原创 设计模式与应用:迭代器模式
介绍迭代器模式迭代模式解决什么问题?或者说如果不使用迭代模式会存在什么问题由容器自己实现顺序遍历:容器类里直接添加顺序遍历方法让调用者自己实现遍历Iterator模式功能:就是为了有效处理按顺序进行遍历访问的一种设计模式,可以屏蔽对象集合的容器类的实现细节这里可以去看JDK的代码如下几个类就是迭代器模式的实现...
2022-06-28 21:02:33 194
原创 设计模式与应用:备忘录模式
java设计模式之备忘录模式介绍及其代码实现作用:保存对象的内部状态,并在需要的时候(undo、rollback)恢复对象以前的状态如果一个对象需要保存状态并想通过undo或roback等操作,恢复到以前的状态时可以使用具体使用应用注意...
2022-06-28 20:07:05 763
原创 Spark:基于PySpark的逻辑回归和决策树模型对泰旦尼克号幸存者预测的机器学习流程
基于PySpark,使用spark的MLLib部分机器学习包,SparkML,对Kaggle入门初级案例:泰坦尼克号幸存者预测的案例,从数据分析,数据清洗,数据整理,特征工程,特征向量化等完整流程示例,最后基于SparkML包中的逻辑回归和决策树模型进行了模型构建和预测测试
2022-02-13 21:21:26 3489
原创 Spark:基于PySpark的DataFrame、SQL、TableAPI操作
基于PySpark的常用DataFrame操作、SQL演示、TableAPI操作。包括官方文档附件和如何在JupterNoteBook上测试PySpark
2022-02-11 23:51:45 1202
原创 Spark:PySpark的RDD算子操作-基于JupyterNotebook
完整的Spark算子操作演示,基于PySpark,整合Jupyternotebook演示,每个算子调用方式,参数列表、行动算子或变换算子说明,功能说明,演示代码,输出结果一应俱全,方便查验
2022-02-11 20:01:59 1522
原创 Spark:JupyterNotebook整合PySpark开发环境
详细介绍windows和linux环境安装部署Spark开发环境;详细演示jupyternotebook整合pyspark,方便在notebook上开发测试pyspark,完整演示流程
2022-02-11 18:33:08 3336 1
原创 服务端架构:Mybatis-Plus的优缺点
前段时间帮朋友处理java后端架构问题,看到了mybatis-plus,其实早几年就知道这个东西,但一直没用没学,这两天许久未见的web服务看了看,聊聊个人感受如有不适,请见谅文章目录优点缺点1.对数据访问层DAO的上层入侵太强,入侵到service、甚至controller!2.数据查询代码复杂,最终SQL黑盒,不清晰,不利于业务性优化,不利于排查问题优点本文没有优点介绍,若要看到优点,自己去官方文档看吧,全是优点,明明白白缺点两大缺点足以限制其在大规模服务中使用:入侵Service和Co.
2022-01-15 15:46:18 18103 44
原创 AI基础:线性回归及其最小二乘法和梯度下降法详细推导与代码示例
线性回归:Liner Regression主要是回忆一下最小二乘和梯度下降文章目录什么是线性回归线性回归能做什么线性回归一般表达式如何计算(学习)参数w,b求解损失函数最小化L时w和b值的方法:最小二乘法代码实现求解损失函数最小化L时w和b值的方法:梯度下降法代码实现多项式的回归代码实现过拟合、欠拟合、正则化什么是线性回归线性:两个变量之间的关系是一次函数关系的图象是直线,叫做线性。非线性:两个变量之间的关系不是一次函数关系的图象不是直线,叫做非线性。回归:人们在测量事物的时候因为客观条件.
2022-01-09 23:51:00 1508
原创 Flink:从业务实践角度聊聊Checkpoint、Savepoint、容错机制和业务升级
接着状态缓存和内存管理后,再聊聊容错机制上文:Flink:从业务实践角度聊聊状态缓存和内存管理多说一句,说实话个人之前研究这部分内容时,有时也会百度,但是很烦的就是,不知道是搜索引擎问题还是大家都喜欢粘贴复制,,,,粘贴复制也就算了,标题好歹统一下吧,可是可是,明明就是找别人的文章粘贴复制的或者直接官网文档粘贴复制,甚至连格式错别字都不管不顾,,,标题好像很牛皮,点进去,文档内容一样,再点下一个,内容一样,再点,还一样,,,搜出来的前几页的,文章标题有点区别,但是居然内容一摸一样,都是官方文档的内容,.
2022-01-06 17:48:08 3194 11
原创 Flink:从业务实践角度聊聊状态缓存和内存管理
本文就是记录些实践结论,不会做深入原理和源码级说明,因为这些,不如去看源码和官方文档,至少官方文档介绍的非常详细,比某些博文缺胳膊少腿、粘贴复制强多了,据我所知,市场上很多关于Flink的参考书大多直接翻译的官方文档官方文档链接附上:https://www.bookstack.cn/read/flink-1.11.1-zh/collapse-2如上是中文翻译版的文档,也有英文版选择和不同版本选择,自行选用本文基于Flink V1.11文章目录Flink状态缓存StateFlink状态缓存Flin.
2022-01-05 15:57:21 3510
原创 Linux虚拟机磁盘扩容CentOS
测试个东西,发现虚拟机磁盘不够用了,,,,找了半天扩容方法,都是东拼西凑的没个有用的,最后终于找到个完美扩容的,记录下,防止原文以后看不了原文:https://www.linuxidc.com/Linux/2019-04/158346.htm文章目录环境扩容环境Centos7VM16扩容VM软件上扩展磁盘先关机,然后如下图操作1111扩展好后,接下来进入系统操作,开机查看扩展后磁盘情况[root@mini1 ~]# fdisk -l磁盘 /dev/sda:53.7 G.
2021-12-20 19:06:29 1041 1
原创 Flink:调用JPMML机器学习模型
有个需求就是要使用数据分析团队实现好的模型,而且是python的,要求在Flink平台上跑起来提供实时调用模型处理数据文章目录背景JPMML介绍环境准备安装使用步骤示例:决策树分类Iris数据集训练模型并获得PMML文件JAVA工程调用PMML模型总结背景在Flink平台上通过调用现有python实现的模型,进行实时预测处理Flink V1.11Java 1.8Python3jpmmlJPMML介绍预言模型标记语言(Predictive Model Markup Language.
2021-12-17 22:26:41 4893 2
原创 AI基础:逻辑回归与梯度下降和基于逻辑回归的分类实践
文章目录逻辑回归原理什么是逻辑回归Sigmoid函数逻辑回归的损失函数损失函数变换过程:从极大似然估计理解逻辑回归的损失函数损失函数变换过程:从交叉熵的角度理解逻辑回归的损失函数逻辑回归损失函数求解逻辑斯特回归为什么要对特征进行离散化逻辑回归应用优缺点(特点)一般应用场景对于过拟合和欠拟合等优化方案基于逻辑回归的分类示例手动实现逻辑回归使用sklearn逻辑回归模型逻辑回归原理什么是逻辑回归注意,本文里的y_pred指的是y预测值逻辑回归是用来做分类算法的,大家都熟悉线性回归,一般形式是y_pr
2021-09-28 18:57:58 452
原创 AI基础:KNN与K近邻距离度量说明、利用KNN手写字体识别分类实践
KNN k近邻文章目录KNN算法K近邻中近邻的距离度量欧式距离标准化欧式距离曼哈顿距离汉明距离夹角余弦杰卡德相似系数皮尔逊系数切比雪夫距离闵可夫斯基距离马氏距离巴氏距离各种“距离”的应用场景距离函数之间的等价关系K近邻中K值的选择KNN最近邻分类算法的过程基于KNN的手写字体识别分类实践KNN算法何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。.
2021-09-23 15:23:02 1218 1
原创 AI基础:朴素贝叶斯与垃圾邮件分类
来,继续回顾基础算法文章目录背景&贝叶斯原理贝叶斯分类器朴素贝叶斯分类器西瓜数据集下的朴素贝叶斯示例朴素贝叶斯分类的优缺点朴素贝叶斯关键问题朴素贝叶斯企业中的应用案例基于朴素贝叶斯的垃圾邮件分类背景&贝叶斯原理朴素贝叶斯基于的原理是贝叶斯原理。贝叶斯原理:通过相关概率已知的情况下利用误判损失来选择最优的类别分类。贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发.
2021-09-22 17:50:57 1772 1
原创 AI基础:决策树,基于ID3、C4.5、CART构建原理
决策树是很多算法模型的基础,回顾下什么是决策树如图,思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女孩介绍对象。决策树相对于LR模型,简单清晰可解释性好很多,就是构造一课树,从根节点走到叶子节点就有答案了。决策树更像是编程语言中的if-else一样,去做条件判断。以上就是决策树的基本思想,那么如果有了一棵决策树,就相当于有了一个模型,接下来就是应用了。和其他模型一样,关注的还是决策树如何构造。决策树的生成决策树基于“树”结构进行决策的,这时我们就要面临两个问题 .
2021-09-09 18:22:47 608
org.eclipse.wst.jsdt.core_1.1.102.jar
2017-10-24
html2canvas-0.4.1.zip
2017-07-26
Myeclipse10安装activiti插件包
2017-06-04
EJB的Ant配置文件build.xml
2017-05-07
JBoss-Application-Server-7.1官方文档
2017-05-03
c3p0-0.9.1.2.jar
2017-03-10
kafka1.0.0的client,生产者生产数据失败
2018-06-05
hadoop通过虚拟机部署为分布式,datanode连接不上namenode
2018-01-30
tomcat对javaweb项目中的web.xml解析顺序是怎样的
2017-03-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人