场景:向已有的数据库中插入大量不重复数据。
向数据库中插入大量数据时,需要判断插入的数据是否重复,然后再决定插入与否,如何提高效率?
1.一般的插入方法:INSERT INTO
在数据库中把某字段设置成唯一索引,当数据重复时,这是会报错,要向忽略这个错误,那么应将插入语句写在try....except...中
2.忽略重复数据:INSERT IGNORE INTO
如果不想显示的去写try...except,那么这条语句很适合你,插入数据时,若出现错误或重复数据,将不返回错误,只以警告形式返回。所以使用ignore请确保语句本身没有问题,否则也会被忽略掉
3.INSERT IGNORE INTO ......ON DUPLICATE KEY UPDATE
当primary或者unique重复时,则执行update语句,如update后为无用语句,如id=id.
4.INSERT INTO ...SELECT ... WHERE NOT EXIST
根据select的条件判断是否插入,可以不光通过primary 和unique来判断,也可通过其它条件。这种方法其实就是使用了mysql的一个临时表的方式,但是里面使用到了子查询,效率也会有一点点影响,如果能使用上面的就不使用这个
5.REPLACE INTO
如果存在primary or unique相同的记录,则先删除掉。再插入新记录。这种方法就是不管原来有没有相同的记录,都会先删除掉然后再插入