数据采集

任何数据分析平台都必须有数据采集模块,它在整个平台的位置处于最底层,因此稳定性和实时性是评估它最重要的二个维度。试想,用户动不动就提取不到所需的分析数据,亦或在急需数据的时候却不能及时的提取,都会严重影响用户的体验。

我所参与开发的通信数据分析平台,主要的数据来源是各种网元节点生成的日志文件。因此,在网元节点和分析平台之间,如何做到及时稳定的进行日志文件的同步,是需要考虑的核心问题。

批量采集

最开始的阶段,平台对实时性要求还不那么高,我们采用了批量采集模式,即在crontab任务中,制定FTP批量下载任务。

批量采集模式上线之初,除了及时性差之外,一切正常。但是随着接入的数据不断增加,我们发现了该模式下没有预料到的一个问题,即给解析服务器带来了负荷上的脉冲。在文件下载的同时,解析任务也在工作,这个阶段非常的消耗资源。于是,尝试考虑如果能做到削峰填谷,岂不是能更好的利用服务器资源。

面对及时性差和负荷脉冲的两座大山,决定有必要切换到实时采集模式。

实时采集

经过技术上的探索,发现inotify + rsync组合可以满足需求。
下图是部署示意图,工作模式简单来说,即网元节点(client端),监控指定目录,同步文件采集服务器(server端)。

这里写图片描述

平台的最终目标是能够实现数据的实时流处理和分析,因此,这次采集模块的技术迭代是必要的,也是最基础的一步。这步完成之后,后面可以把精力放在处理模块的实时性改造上了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
会计软件数据采集 4.1系统概述 1、能采集、转换目前常用的用友、金蝶、安易、新中大、金算盘、浪潮、远光、远方、华兴、灵狐、速达、万能、通用、友强、金蜘蛛、降龙、益和、易统、润嘉、奥林岛、煤碳财务、金思维、复旦天翼、天大天财、小蜜蜂、北京通用、北嘉、兴竹、电信新逸、博科、管家婆、三门、科发通用、中财信事行财务、金财以及Sap/Oracle等80余种财务软件各个版本的数据,并能快速定制特殊财务软件数据采集接口。从6.2版本开始开放了数据采集转换接口,用户可以自己定义转换对应关系,直接读取各种(包括未支持财务软件及手工账数据)财务软件导出的科目汇总数据及凭证分录数据(格式为EXCEL,大多数财务软件有此功能),从而使本审计软件彻底解决数据接口问题。 2、采用只读不写的采集技术,保证了被审单位财务数据的安全性、准确性和完整性。 3、采集、转换工具都使用向导式技术,采集、转换流程清晰、直观、易操作。 4、转换、重新记帐步骤合并到一起,用户将被审单位的数据进行转换完毕后,就可以切换到通用财务审计系统进行审计分析。 登录审计管理平台后如下图4.1-1所示,点击登录平台中间的“快捷切换”右边的下拉式箭头,在弹出的下拉式菜单中选择【02-数据采集转换系统】,数据采集转换系统操作界面功能如下图4.1-1左边树型结构所示: 图4.1-1 数据采集转换系统
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值