场景:
Mysql数据库,表大小6G,长度千万行,需要对其中一个字段'title'去重
解决:
想了好多方法,准备hadoop开撸的,没想到
create table results select *, count(distinct name) from src group by name
其中,src为源表,results为最张结果,name为去重字段
生成的新表多了一列,再去掉就可以了
场景:
Mysql数据库,表大小6G,长度千万行,需要对其中一个字段'title'去重
解决:
想了好多方法,准备hadoop开撸的,没想到
create table results select *, count(distinct name) from src group by name
其中,src为源表,results为最张结果,name为去重字段
生成的新表多了一列,再去掉就可以了
转载于:https://my.oschina.net/vintnee/blog/690140