C# 高效比较两个DataTable数据差异化

假如有两个DataTable表格分别是dt1,dt2,dt2中有些数据跟dt1一样,现在想找出dt2的数据在dt1中不存在的数据集(换句话也可以说dt2删除已经存在于dt1中的数据),传统思想可能直接用循环找差异,这种是非常低效的做法,数据量少无所谓,数据量大,简直要了程序猿老命,既然直接循环查找不可取,那么有没有高效一点的做法呢(废话,凑数字用,当然是有了),C# linq 中IEnumerable 提供了Expect(差集)的方法,众所周知,DataTable提供了AsEnumerable()的转换方法,能把DataTable转成IEnumerable<DataRow>,这样我们就能linq 来处理DataTable了,如果dt1和dt2的结构相同,则可以直接dt2.AsEnumerable().Expect(dt1.AsEnumerable())来获得两个表格的差异,当然这个结果的返回是一个IEnumerable<DataRow>,如果想要一个DataTable结果,可以直接调用方法CopyToDataTable()(该方法调用之前需要判断结果集是否没有数据,没有数据会报错)

var list=dt2.AsEnumerable().Except(dt1.AsEnumerable());
DataTable resultDt;
if(list.Count()>0)
    resultDt=list.CopyToDataTable();
else
    resultDt=dt2.Clone();//克隆个结构;

如果dt1,dt2的结构不一样,那么就不能直接用Except方法来处理了,这里我的建议是用linq中的join方法,先把dt1,dt2两个表做一个内连接的关联处理,找出dt2跟dt1相同的部分,然后再利用dt2跟dt2于dt1相同的部分做一次差集处理,就能得出dt2和dt1的差集,直接上代码,代码演示用的是linqpad工具,其中的Dump方法是用来输出打印的,vs调试的话,请自行修改成Console,测试数据用了50w,60w如果单靠差集处理,是秒级别

void Main()
{
	Stopwatch sw = new Stopwatch();
	sw.Start();
	var dt1 = CreateDt(500000, 3);
	var dt2 = CreateDt(600000, 5);
	sw.Stop();
	sw.Elapsed.Dump("生成两个表的时间");
	
	sw.Restart();
	//dt2.AsEnumerable().Except(dt1.AsEnumerable());//如果表格表的结构相同,则直接差集处理得出结果
	var dt = dt2.AsEnumerable().Join(dt1.AsEnumerable(), p => p[0], p => p[0], (p, q) => p);//内连接,查询两个表格相同部分,再利用相同部分做差集处理得出结果就是dt2在dt1中的差集
	var result = dt2.AsEnumerable().Except(dt).ToList();
	sw.Stop();
	result.Count.Dump("差集结果条数");
	sw.Elapsed.Dump("查询差异的时间");
	sw.Restart();
	DataTable resultDt;
	if (result.Count() > 0)
	resultDt = result.CopyToDataTable();
	else
		resultDt = dt2.Clone();
	
	sw.Stop();
	sw.Elapsed.Dump("转成DataTable耗时:");

}
DataTable CreateDt(int row, int count)
{
	var dt = new DataTable();
	for (int i = 0; i < count; i++)
		dt.Columns.Add("col" + i);
	var rnd = new Random();
	for (int i = 0; i < row; i++)
	{
		var num = rnd.Next(0, row);
		dt.Rows.Add(dt.Columns.Cast<DataColumn>().Select(p => p.ColumnName + num).ToArray());
	}
	return dt;
}

 结果图:

从结果上看,关联和差异处理共耗时1秒左右,这个速度还是能接受的

  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
比较两个 DataTable 表中某列的差异,可以使用 LINQ 查询和 `Except()` 方法来实现。 假设我们要比较两个 DataTable 表 `table1` 和 `table2` 中的某一列 `columnName` 的差异,可以按照以下步骤进行: 1. 使用 `AsEnumerable()` 方法将 DataTable 转换为 `IEnumerable<DataRow>`,以便在 LINQ 查询中使用。 2. 使用 `Select()` 方法选择需要比较的列。 3. 使用 `Except()` 方法获取两个表中不同的行。 下面是示例代码: ```csharp // 获取 table1 和 table2 中不同的行 var diff = table1.AsEnumerable() .Select(row => row.Field<string>(columnName)) .Except(table2.AsEnumerable() .Select(row => row.Field<string>(columnName))); // 输出差异 foreach (var val in diff) { Console.WriteLine(val); } ``` 上面的代码首先使用 `Select()` 方法选择了 `columnName` 列,并使用 `AsEnumerable()` 方法将 DataTable 转换为 `IEnumerable<DataRow>`。然后使用 `Except()` 方法获取两个表中不同的行,最后输出差异。 需要注意的是,如果两个表中包含相同的值但顺序不同,那么这些值将被视为不同,因此你可能需要使用 `OrderBy()` 方法来排序。例如: ```csharp // 获取 table1 和 table2 中不同的行 var diff = table1.AsEnumerable() .Select(row => row.Field<string>(columnName)) .OrderBy(val => val) .Except(table2.AsEnumerable() .Select(row => row.Field<string>(columnName)) .OrderBy(val => val)); // 输出差异 foreach (var val in diff) { Console.WriteLine(val); } ``` 这里使用 `OrderBy()` 方法对两个表的选择结果进行排序,以便获取准确的差异
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值