近期在工作中,遇到的数据比对的工作较多,整理一下相关的内容
大数据比对思路:
从工作当中遇到的情况来说,有如下几种比对的情况
- 上下游数据比对
比如上游数据存储为某个.dat文件,下游数据为多个拆分后的多个文件。
将上游数据进行解析,并且将下游数据进行解析,最终转化成同一格式,相同字段,进行对比
- 前后端数据对比
后端数据,通过SQL语句查询,导出为csv或者txt文件
前端页面数据通过爬虫,接口请求,xpath等方式,抓取并且写入txt文件
- 多环境数据比对
比如多个数据中心之间的对比,将最终落地的数据进行对比
比如灰度环境及正式环境数据对比,前提是数据是一致的情况下
-
多格式数据对比
如果某公司有多种内部协议,生成的数据是多种格式,最终可以将多种数据的格式统一转换成一种格式及字段,并进行数据对比。 -
多个版本之间对比
通过V3.2.1与V3.2.2之间的版本,生产数据,做相应的对比
对比工具
数据对比工具Beyond Compare
适用于2个对比文件,列都相同的情况
Python字典对比
如:
{
“1”:“数据1”
“2”:“数据2”