大模型大数据攻城狮
在阿里巴巴等多种类型公司工作过,第一份工作是在大厂做移动开发,后来在创业公司由于团队需要做后台开发、嵌入式开发等几乎全栈开发,最近这些年还保持必要全栈开发,精力更多在大数据、大模型等领域。
展开
-
DevOps在提升软件质量方面的作用
持续部署作为DevOps的核心实践之一,对于提升软件质量具有显著的作用。它通过在自动化测试通过后自动将应用部署到生产环境,实现了软件交付的持续性和高效性。在实施持续部署的过程中,需要重点关注以下几个方面,以确保其顺利进行并达到预期的效果。自动化测试是持续部署的基石。为了确保每次部署到生产环境的应用都是经过充分测试的,必须在部署前进行严格的自动化测试。这包括单元测试、集成测试、系统测试以及验收测试等。通过自动化的方式执行这些测试,可以及时发现并修复潜在的问题,确保软件的质量。原创 2024-09-20 09:00:38 · 474 阅读 · 0 评论 -
海豚调度器用得好,运维人员少加班 —— 高级技巧与使用教程
可视化工作流设计。原创 2024-08-07 06:27:40 · 444 阅读 · 0 评论 -
无人值守大数据平台(CDH6.3.2+Flink+海豚调度器)如何实现大数据平台稳定及顺利跑出离线报表和实时报表(持续更新方案)
这样,即使某个磁盘发生故障,也能通过其他磁盘上的数据来恢复丢失的信息,从而保证数据的完整性和可访问性。利用 Hadoop 的高可用和容错特性,如 DataNode 的自动恢复和 NameNode 的 HA 配置,提高系统的容错能力:当 DataNode 出现故障时,Hadoop 可以自动从其他正常的 DataNode 上恢复数据。通过上述组件的高可用配置,CDH6.3.2 能够确保大数据平台在面对硬件故障、网络问题或其他意外情况时,仍能保持服务的连续性和数据的完整性。原创 2024-08-03 21:02:50 · 658 阅读 · 0 评论 -
CDH清理磁盘空间完全攻略和完整实现自动化脚本(大数据清除日志)
在CDH集群中,自动清除日志的意义非常重大。尤其是在内网环境下,运维人员无法随时登录服务器进行操作,或者是因为放长假等原因不能每天进行运维工作。这时,如果日志不自动清理,就会面临日志空间满了的问题,这可能造成CDH各组件无法正常工作,离线数仓计算完全停止。考虑到运维人员不能时时刻刻地在现场进行操作的实际情况,自动清除日志显得尤为重要。比如,当运维人员因为放长假或其他原因暂时无法处理系统日志时,如果系统能够自动清理过期或不必要的日志,就能有效减少系统故障的风险。自动清除日志还能有效节省存储空间和维护成本。原创 2024-08-01 21:37:46 · 370 阅读 · 0 评论 -
面试或开发必懂场景案例:物联网(Iot)把数据补齐和转换成分钟级数据的详细案例(完整代码实现和解释)
在物联网中,许多传感器只在检测到环境或设备状态变化时才发送数据,这样做的好处是可以减少不必要的数据传输,节省电力,降低网络拥堵,并减少数据存储需求。分钟级别的时间维度表尤其在需要精确到分钟级别的时间序列分析中非常有用,比如在金融交易、电信行业、物流监控等领域。:时间维度表允许用户在不同时间粒度(秒、分钟、小时、天、周、月、季度、年)之间灵活切换,便于进行各种时间范围的分析。:随着时间的推移,你需要定期更新时间维度表,加入新的时间戳,以及可能的未来节假日信息。:首先定义时间维度表的起始时间和结束时间。原创 2024-07-21 10:13:40 · 612 阅读 · 0 评论 -
海豚调度器利用API来自动补数的源码分析和亲测可用实例
在做大数据开发或大数据运维,最耗时和最苦恼的工作是补历史数据,特别是表很多,要补日期很多,一个任务执行要等很久。而大数据平台是在内网,在千里迢迢去现场才能操作,这时候手工补数据就要时间周期很长。下面讲述用海豚调度器的API来实现自动补数。原创 2024-07-03 16:45:11 · 601 阅读 · 0 评论 -
用python工具实现自动检测报表缺失哪些天日期的数据(亲测可用)
在前面的文章,详细介绍了如果监测mysql或hive当天或当月的表,看是否跑出数据,如果没有跑出数据,就如何调用海豚调度器的api来自动启动工作流。可参考下面的2篇文章。不过在实际中应用场景中,特别是新的离线数仓的项目,通常是需要跑历史数据。如果涉及表多的话,一个个手动检测很耗时间。下面提对前面的检测当天报表的代码进行升级,自动化地检查特定日期范围内多个数据库表的数据完整性,并记录缺失的数据日期到mysql中。原创 2024-06-21 09:10:48 · 202 阅读 · 0 评论 -
2万字长文Doris运维问题大全及参考答案(持续更新)
Apache Doris(原Palo)是一个面向OLAP(在线分析处理)的MPP(大规模并行处理)数据库系统,专为实时分析和大数据处理场景设计。高性能分析:通过列式存储、向量化执行引擎和先进的查询优化器,Doris能够提供亚秒级的查询响应时间,特别适合复杂的分析查询。易用性:Doris支持标准SQL语法,降低了学习成本,同时提供了丰富的数据导入工具和灵活的数据模型设计,便于用户快速上手。高可扩展性:Doris采用分布式架构,可以轻松横向扩展,通过增加更多的服务器来提升数据处理能力和查询性能。高可用性。原创 2024-06-18 13:13:50 · 451 阅读 · 0 评论 -
海豚调度器自动监测每日报表及自动重跑异常工作流(综合应用可用代码
在TABLE_QUERIES、HIVE_TABLE_QUERIES 定义好你需要监控的工作流名称和这个工作流输出结果的表(分为hive的表和mysql的表),检测当天这些表是否跑出结果,然后把这些工作流的名称和结果写入到bigdata_autocheck_days_run_data_result表中。第3步:从mysql表bigdata_autocheck_days_run_data_result找到失败工作流,获取processDefinitionId,启动工作流。原创 2024-06-13 13:34:21 · 225 阅读 · 0 评论 -
CDH远程监控所有HDFS节点磁盘空间和自动清除日志
为了在Java程序中使用SSH协议,我们选择了JSch库。JSch是一个纯Java实现的SSH2客户端库,它可以用于连接到SSH服务器,执行命令,传输文件,端口转发和X11 forwarding等。它的使用简单,功能强大,广泛应用于SSH操作的场景。原创 2024-06-13 00:04:10 · 570 阅读 · 0 评论 -
Cloudera Manager API详解和大数据组件异常自动恢复实例(亲测可用)
这是的升级篇。Cloudera Manager 是一个全面的集群管理和监控解决方案,专为Apache Hadoop生态系统设计。它提供了一站式的界面,用于部署、配置、管理和监控Cloudera Distribution Including Apache Hadoop (CDH)集群。Cloudera Manager通过其强大的API,使得自动化和集成变得更加容易,从而进一步增强了集群的可管理性。原创 2024-06-13 00:03:21 · 4246 阅读 · 1 评论 -
海豚调度器调用api接口启动工作流(亲试可用)
在大数据时代,工作流调度器成为了数据管道和ETL任务中不可或缺的工具。DolphinScheduler作为一款强大的工作流调度器,支持多种任务类型和工作流的可视化管理。除了通过Web界面操作外,DolphinScheduler也提供了API接口,使得第三方系统集成和自动化脚本调用成为可能。在工作需要通过api接口启动海豚调度器的工作流,由于生产环境的海豚调度器是1.3.5版本,不同版本的api有所不同,请根据实际进行调整。原创 2024-06-05 15:35:31 · 858 阅读 · 0 评论 -
利用Cloudera Manager API来监控CDH大数据组件并异常重启实例
Cloudera Manager API是一套基于RESTful风格的API接口,它允许用户通过HTTP请求与Cloudera Manager服务器进行通信,实现对集群的远程管理。这些API接口包括获取集群信息、服务状态、角色状态、启停服务等,为用户提供了丰富的监控和管理功能。Cloudera Manager提供丰富的RSEtfull API接口,并返回标准的JSON结果。具体地址可以参考:CM API接口官网文档说明:原创 2024-06-12 00:09:07 · 1127 阅读 · 0 评论