【过滤重复】一次过滤重复数据的优化过程

【问题】在oracle中分多次执行SQL查询,结果是百万条数量级的字符串数据,需过滤重复掉数据并保证各原SQL查询的记录顺序,然后输出到txt中。

【分析】1、使用union all。使用union all连接各SQL语句执行distinct查询,随过滤了重复数据,但难保证原SQL查询的记录顺序。

              2、使用Datatable。利用DataTable.Merge合并各DataTable,然后利用ToTable进行重复数据过滤,结果符合问题描述需求,但执行过程中耗费了很长时间都没有执行完,原因在ToTable过滤大数据量时异常得慢。

             3、使用Dictionary和sortedDictionary字典。每条记录在输出时,判断是否在Dictionary里,不在则add到dictionary,然后输出。时间在30s内执行完成。

【结论】DataTable的ToTable方法效率极低,官方MSDN上推荐的方法不一定适合所有情况。在使用Dictionary时,原以为在容器中操作超大量数据时,处理会很慢,测试后结果相反。所以实践出真知。

ps:如果只是当作索引使用, 请用 Dictionary.如果需要查找最小的几个元素, 或者需要按顺序遍历元素, 就用 SortedDictionary.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值