背景:用户在输入的内容的时候所有联想词都一步步的传到log中,只需确定最后一步的字符串即可得到最有效的信息
代码逻辑:首先在此背景下,字符串可以先做排序,再做包含关系处理;
说明:因为这个写成了UDF,为了图省事儿直接写在了一个函数里,从代码美观上最好分两个函数;
代码如下:
package com.dy.udf;
import java.util.ArrayList;
import java.util.List;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.hive.ql.udf.UDFType;
@UDFType(deterministic = false)
public class StrincludecomUUDF extends UDF {
public String[] evaluate(String[] strarr) {
try {
List<String> result = new ArrayList<>();
String temp;
for (int i = 0; i < strarr.length; i++) {
for (int j = strarr.length - 1; j > i; j--) {
if (strarr[i].length() > strarr[j].length()) {
temp = strarr[i];
strarr[i] = strarr[j];
strarr[j] = temp;
}
}
}
for (int i = 0; i < strarr.length; i++) {
int flag = 0;
for (int j = i + 1; j < strarr.length; j++) {
if (strarr[j].indexOf(strarr[i]) != -1) {
flag = 1;
continue;
}
}
if (flag == 0) {
result.add(strarr[i]);
}
}
int ressize = result.size();
String[] resArr = new String[ressize];
for (int i = 0; i < ressize; i++) {
resArr[i] = result.get(i);
}
return resArr;
} catch (Exception e) {
}
return null;
}
}
实例测试:
public static void main(String[] args) {
String[] strarr = { "ghfjkk", "a", "ab", "gh", "abc", "abcd", "ab", "ghfj" };
String[] re = evaluate(strarr);
System.out.println("返回的数组长度" + re.length);
for(int i=0;i<re.length;i++){
System.out.println(re[i]);
}
}
下面这里可加断点测试:
int ressize = result.size();
System.out.println("list的长度: "+ ressize);
String[] resArr = new String[ressize];
System.out.println("根据list长度建立的数组的长度: " + resArr.length);
for (int i = 0; i < ressize; i++) {
resArr[i] = result.get(i);
System.out.println("返回的数组依次显示:" + resArr[i]);
}
结果:
list的长度: 2
根据list长度建立的数组的长度: 2
返回的数组依次显示:abcd
返回的数组依次显示:ghfjkk
返回的数组长度2
abcd
ghfjkk