今天在编写Python程序进行数据库的Update操作时,发现更新一条数据大概需要0.5秒
粗略计算一下,更新42万条大概需要58个小时,因此在执行大数据量更新的时候一条条进行更新基本行不通,除非你非常有耐心。通过查阅资料发现有三种优化方法
- MySQL自带的批量更新
- 存储过程
- 建立索引
对于存储过程和索引我用的比较少,所以这里我用了第一种方法。
以表nine_tuple(包含列N_T_ID和SENTI_VALUE)为例,然后需要从文本文件senti_values.txt中读取N_T_ID和SENTI_VALUE值,并根据N_T_ID来更新SENTI_VALUE一列的值
表1
MySQL批量插入的语法为:
UPDATE nine_tuple
SET SENTI_VALUE = CASE N_T_ID
WHEN 1 THEN ‘1.57’
WHEN 2 THEN ‘1.3’
WHEN 3 THEN ‘1.2’
END