第二章 链接你的数据
无论是个人还是企业,需要分析的数据正在变得越来越多,数据的来源也变得越来越多样,这些待分析的数据往往分散在多个数据库、文本文件、电子表格,外部数据源中。DataFocus为用户提供了整合各种数据源的“数据管理”功能模块,用户可以通过它连接各种各样主流的数据库,也可以上传或者同步本地excel文件。DataFocus标准版以上产品的数据管理模块包含了大数据仓库和内存计算引擎。用户接入的数据都将以列式存储的格式保存在数仓中,这保证了分析计算的高效性。
2.1链接你的数据
2.1.1 连接本地文件
打开DataFocus系统,点击左侧数据管理,然后点击右侧操作按钮,点击导入数据。可导入本地CSV、TXT、XLS、XLSX以及JSON等本地数据文件。选中后点击上传,并确认行列属性是否正确。若行列属性不正确(如数值保留了字符串格式未转化为数值格式),则无法进行可视化分析。适用于一些本地已有文件(如一些店铺数据或是自录数据表)的分析,或是一些未购买数据库的企业。
图2-1 本地数据导入界面
导入本地数据,大小限制为50MB。本地Excel文件经常存在数据不规范的问题,DataFocus的数据导入模块提供了简单的数据清理功能,具体操作为在导入数据时点击高级按钮,会展开一系列选项,用户可以设置跳过行、读取行数、跳过注释行、拆分列等操作,进行简单的数据清理。
图2-2 本地数据导入高级配置
2.1.2 批量导入Excel数据
对于大量的,经常更新的本地数据源,DataFocus还提供了excel文件批量同步工具。比如有些小企业或工厂经常采用excel进行数据管理,他们将数据存放在某些固定的文件夹中,并定时更新。这种场景,就可以通过设定excel批量同步工具定时将excel数据追加上传到DataFocus的数据仓库中进行分析。
图2-3批量导入Excel工具的下载
DataFocus Sync tool提供了丰富的数据同步追加功能,以及数据清洗和预处功能,足以允许部分习惯于使用excel进行数据管理的企业平滑的将其数据迁移到DataFocus中来。使用前需要用户在服务参数配置中填入对应的服务器地址和对应的Key。
图2- 4 DataFocus Synctool配置界面
服务参数SecretID和SecretKey通过DataFocus系统的用户页面点击用户标识,生成对应的Key。用户完成配置连接成功后,同步工具将自动扫描所选文件夹,整理和汇总对应的数据表,如果服务器搭建在云端,应采用https加密连接方式进行。同步工具还提供了数据清理功能,用户可以自主配置规则对数据表进行过滤和筛选,这对不规范的excel表非常有用,还可以设定定时导入功能以便用户定时同步追加数据到DataFocus的服务端。DataFocuaMini及以上版本均支持同步工具的导入。
图2-5 生成同步工具的key
2.1.3 连接数据库
点击左侧数据管理模块,点击上方数据源按钮,点击右侧新建数据源,可点击直连数据和导入数据。需要注意的是,导入数据为数据导入到DataFocus自带大数据仓库,直连数据为直接抽取服务器数据进行分析。若是操作大量分析,建议使用导入数据,DataFocus数据仓库性能可保障分析顺畅,否则直连数据分析则依靠对方设备的性能。数据导入后,可点击上方“开始”则可进行导入,列表可查看导入状态。
导入数据支持定时更新,更新频率一般为每天、每周、每月。直连数据可支持实时更新,数据库中数据有变化,DataFocus中直连的这些表,以及依赖这些表制作的报表等也都能实时更新。
图2-6 链接数据库
图2-7 数据库链接方式
2.1.4 直连数据和导入数据