Sql在Mysql的执行_select * from vitae a where (a.peopleid,a.seq) in -CSDN博客

本文链接：https://blog.csdn.net/kite1988/article/details/5189217

昨天解析了dblp.xml，存入数据库，生成了若干张临时表。今天上午，对这些临时表进行处理，然后存入实验设计的表中。数据库的数据量比较大，50多M，80多万条记录。因而执行sql时，就遇到了很多问题。

1、去除重复tuple

原始dblp.xml中，同一论文的存在几个完全相同的<cite>，所以要对数据库中的数据进行处理。网上搜到一段代码：

1）查询某些属性相同tuple的方法
select * from vitae a where (a.peopleId,a.seq) in (select peopleId,seq from vitae group by peopleId,seq having count(*) > 1)

   2）删除某些属性相同tuple的方法
   delete from vitae a where (a.peopleId,a.seq) in (select peopleId,seq from vitae group by peopleId,seq having count(*) > 1)
   and rowid not in (select min(rowid) from vitae group by peopleId,seq having count(*)>1)

我先执行了1，是在一个有79，000条记录的表上执行的。数分钟后（10分钟以上），结果顺利出来。然后我在记录数为212，273的表上执行2，很久之后还没有出结果。于是我又执行了1），放在532，555条记录的表上。这下情况不妙，电脑直接死机了，cpu100%疯狂地运转着。正常关机都不行，最后只好强行按下了关机键。

重启后，我不死心，在532，555条记录的表执行1。1.5小时过去了，还没有结果出现。

看来下午要好好研究一下sql在mysql的执行效率了。

2、select into

Mysql中不支持select into table的语法，但可以用以下2个语句替代。

1）create table table_new (select * from table_old);
2）insert into table_new(name,password...) select table_old.name, table_old.password from table_old where

table_old.name="ct";