在进行任何数据分析工作之前,我们都需要先将数据导入到分析场景,尤其是一些在本地储存的业务数据,需要先上传本地文件到平台上,再进行相应的处理和后续的模型构建。
在传统的数据分析工作流程中,这一环节往往耗时耗力,为后续的工作开展带来极大的阻碍,比如:
本地文件上传慢,效率低
随着本地文件的数据格式越来越复杂,需要上传的本地文件大小也越来越大,成千上万条的数据行,往往需要几十分钟甚至数小时的时间才能完成。尤其是需要进行批量文件上传时,效率就更加缓慢了。
数据需要进行二次处理
目前市面上常见的建模工具大多对于本地文件的上传实现了通用性的兼容,但很多时候对于特殊文件或者出现报错的文件,还是需要用户上传之后自行进行二次处理。
为了简化建模分析前的数据准备工作,让数据分析更轻松高效,Tempo AI针对本地文件的上传做出了一系列优化,大家不妨试试看吧~
更清晰的数据文件配置处理
Tempo AI提供了针对本地TXT、EXCEL和CSV格式的文件,通过可视化操作界面,轻松快捷地将文件上传到平台,可供后续数据处理或模型建立。下图是文件输入节点的打开界面。
点击文件上传,选择需要上传的文件,点击确定,平台使用分片技术将文件上传解析,解析成功之后,对于不同格式的文件,配置相关信息,比如对于txt文件,可选择内置的分隔符,也可自定义设置分隔符;选择文件匹配的编码格式,自由读取数据内容。
完成配置之后,文件就可以成功上传,对于上传成功的文件我们可以查看数据内容和数据结构,并且在数据结构界面,可搜索字段名称或者对单个/多个数据类型进行修改。
Tempo AI对于数据中的空值具有兼容处理机制,可以满足将空格、NULL、NAN和NONE自定义设置空值的统一展示形式。并且对于隔行数据,表头提取、数据内容提取范围支持用户在上传时,可直接通过可视化操作界面进行配置,便捷完成数据的上传和解析,轻松提取想要的数据内容。
文件上传成功之后,我们去执行该节点,就可以在洞察中查看已上传成功的数据,后续可对该数据进行统计分析、数据处理或模型构建。
更高性能的大文件数据上传和解析
Tempo AI提供的文件输入算子采用了分片技术,可以根据文件大小,将大文件数据通过统一的数据大小进行分片,实现大文件数据的快速上传和解析。10M数据0.1秒就可完成上传,对于500M文件需要8s可以完成上传,对于1G的数据仅需要20s即可完成文件的上传。
更智能的批量文件上传
以往当我们需要处理批量数据文件时,最让人头疼的就是如何将批量数据文件高效率上传。Tempo AI的批量文件输入功能,支持一次性读取多个文件,帮助用户快速实现批量文件上传和批量数据文件的智能处理。
比如当我们针对企业财务数据进行分析时,假设每个部门的奖金记录是一张表,想将所有的奖金记录汇总成一张表,就可以使用批量文件上传,打开批量文件上传节点,选择对应的文件类型为xlsx,选择多个用户文件,点击确认上传。
这里可以针对每张表通过可视化操作界面完成配置信息,比如起始行、起始列、是否去掉引号、是否提取表头,是否覆盖同名文件,设置完成之后,点击确定
对于多个文件可选择主表,点击确定
流程执行成功之后,在洞察中我们可以看到,Tempo平台已经直接按照不同的员工、部门属性,展示四个季度下的奖金情况,无需人工进行再进行任何合并处理。