需求:
今天要统计有有多少家航司数据?要去重
描述:
但是这个字段存的是 以斜杠进行分割的数据
分析:
每个字段都存在重复,或者不重复。整体思想,
1、先在oracle去重,然后以/拼接
2、在java中 写个程序进行去重拼接
先写个程序块:
declare
p_str clob;
begin
for i in (select distinct t.airle
from table_airline
loop
p_str:=p_str||'/'||i.airle;
end loop ;
dbms_output.put_line(p_str);
end;
因为长度太长,只好设置p_str 为clob得到:
实际字段长度比这个要长好多,超过了4000个字符,所以很多网上的分割字符都不好写,又着急要,只好在java中写下。
/8L/GJ/MU/GJ/MU/ZH/8L/KY/MU/SC/NX/CA/CZ/HU/MU/ZH/CZ/MF/SC/CZ/SC/8L/CZ/GS/HU/JD/PN/QW/SC/Y8
java代码:
public class TestAirline {
public static void main(String[] arg){
//要去重字符串
String airlines=
"8L/GJ/MU/GJ/MU/ZH/8L/KY/MU/SC/NX/CA/CZ/HU/MU/ZH/CZ/MF/SC/CZ/SC/8L/CZ/GS/HU/JD/PN/QW/SC/Y8/ZH/3U/CZ/GS/HU/JD/MF/PN";
System.out.println(airlines.length());
String[] airlineArr=airlines.split("/");
String airlinedistinct="";
for(int i=0;i<airlineArr.length;i++){
// 如果不包含就拼接
if(!airlinedistinct.contains(airlineArr[i])){
airlinedistinct=airlinedistinct+"/"+airlineArr[i];
}
}
//得到去重航司
System.out.println(airlinedistinct);
//再分割,得到数量
String[] airlinedistinctArr=airlinedistinct.split("/");
System.out.println(airlinedistinctArr.length);
}
}
搞定,当然有更好的方法的话,虚心接受指教。
网上找到一个去重的function (但因为我拼接的字符串太长,无法使用它的函数)不过以后如果小量的话,还是可以用的下。
如下:
create or replace function fun_rep_repeat_str(p_str varchar2,p_sep varchar2)
return varchar2 deterministic is
/*
*
* 字符串中,子字符串去重
* p_str: 需要去重的字符串
* p_sep: 分隔符
* 例: select fun_rep_repeat_str('100010,100011,100012,100013,100014,100015,100016,100011,100012,100013,100014,100015,100016') from dual;
*/
type v_type is table of varchar2(4000);
v_tab v_type;
v_res varchar2(4000);
cursor c_get_str is
select regexp_substr(p_str, '[^' || p_sep || ']+', 1, level) str
from dual
connect by level <= length(regexp_replace(p_str, '[^' || p_sep || ']')) + 1;
begin
open c_get_str;
fetch c_get_str bulk collect
into v_tab;
close c_get_str;
--集合去重
v_tab := set(v_tab);
for x in 1 .. v_tab.count loop
v_res := v_res || v_tab(x) || p_sep;
end loop;
return rtrim(v_res, p_sep);
end;