大文件重复行

假如有一个文件很大,比如1T,现在需要找出内容重复的行。如果用java代码来实现,用缓存肯定是不行的,一般的服务器没有这么多内存。那么如何去做呢?可以利用数据库来处理,方法如下。
创建一个表,有两列,一个是id主键,表示行号,一列是内容content。
-- Create table
create table T_HUGE_FILE
(
ID number,
CONTENT varchar2(1000)
)
;
-- Create/Recreate primary, unique and foreign key constraints
alter table T_HUGE_FILE
add constraint PK_T_HUGE_FILE primary key (ID);


逐行读取文件并保持到数据库中。
然后通过sql语句查询出重复的行及内容。
select id, content from t_huge_file where id not in
(select min(id) from t_huge_file group by content)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值