Apache Commons Collections
Apache Commons Collections 是一个扩展 Java Collections Framework 的开源库,提供了许多实用的集合类和相关工具。
常用的集合类:
1. Bag
接口及其实现
Bag
是一个特殊的集合,允许重复元素,并能跟踪每个元素的出现次数。
HashBag
:基于HashMap
实现的Bag
。TreeBag
:基于TreeMap
实现的Bag
,元素有序。LinkedHashBag
:基于LinkedHashMap
实现的Bag
,保留插入顺序。
Bag<String> bag = new HashBag<>();
bag.add("apple", 3); // 添加 3 个 "apple"
int count = bag.getCount("apple"); // 返回 3
2. BidiMap
接口及其实现
BidiMap
是一种双向映射,既可以通过键查找值,也可以通过值查找键。
DualHashBidiMap
:基于HashMap
实现的双向映射。DualTreeBidiMap
:基于TreeMap
实现的双向映射。DualLinkedHashBidiMap
:基于LinkedHashMap
实现的双向映射。
BidiMap<String, Integer> bidiMap = new DualHashBidiMap<>();
bidiMap.put("one", 1);
String key = bidiMap.getKey(1); // 返回 "one"
3. MultiMap
接口及其实现
MultiMap
允许一个键对应多个值。
MultiHashMap
:基于HashMap
实现的多值映射。MultiValueMap
:通用的多值映射实现,内部使用任何Map
和Collection
实现。
MultiValuedMap<String, String> multiMap = new ArrayListValuedHashMap<>();
multiMap.put("fruit", "apple");
multiMap.put("fruit", "banana");
Collection<String> fruits = multiMap.get("fruit"); // 返回 ["apple", "banana"]
4. Trie
接口及其实现
Trie
是一种用于存储字符串的树形数据结构,通常用于实现前缀搜索。
PatriciaTrie
:基于 Patricia trie 算法实现的 trie。UnmodifiableTrie
:不可修改的 trie。
Trie<String, String> trie = new PatriciaTrie<>();
trie.put("apple", "fruit");
trie.put("app", "application");
SortedMap<String, String> prefixMap = trie.prefixMap("ap"); // 返回前缀为 "ap" 的所有键值对
5. ListValuedMap
和 SetValuedMap
这些是 MultiMap
的具体实现,允许一个键对应多个 List
或 Set
值。
ListValuedMap
:例如ArrayListValuedHashMap
。SetValuedMap
:例如HashSetValuedHashMap
。
ListValuedMap<String, String> listValuedMap = new ArrayListValuedHashMap<>();
listValuedMap.put("color", "red");
listValuedMap.put("color", "blue");
List<String> colors = listValuedMap.get("color"); // 返回 ["red", "blue"]
6. IteratorUtils
和 CollectionUtils
这些工具类提供了许多实用方法,用于操作和转换集合。
IteratorUtils
:例如toList()
,toArray()
,chainedIterator()
等。CollectionUtils
:例如isEmpty()
,union()
,intersection()
,disjunction()
,subtract()
等。
List<String> list = Arrays.asList("one", "two", "three");
boolean isEmpty = CollectionUtils.isEmpty(list); // 检查集合是否为空
7. LazyList
和 LazyMap
LazyList
和 LazyMap
是惰性集合,当访问到不存在的元素时,它们会自动创建元素。
LazyList
:延迟加载的List
。LazyMap
:延迟加载的Map
。
Factory<String> factory = new Factory<String>() {
public String create() {
return "default";
}
};
List<String> lazyList = LazyList.lazyList(new ArrayList<String>(), factory);
String value = lazyList.get(5); // 如果索引 5 之前没有元素,则返回 "default"
8. FixedSizeList
和 FixedSizeMap
固定大小的集合,不能增加或减少元素。
FixedSizeList
:固定大小的List
。FixedSizeMap
:固定大小的Map
。
List<String> list = Arrays.asList("one", "two", "three");
List<String> fixedSizeList = FixedSizeList.fixedSizeList(list);
9. Unmodifiable
和 Predicated
集合
不可修改和带条件的集合。
UnmodifiableList
:不可修改的List
。UnmodifiableMap
:不可修改的Map
。PredicatedList
:带条件的List
。PredicatedMap
:带条件的Map
。
List<String> list = new ArrayList<>(Arrays.asList("one", "two", "three"));
List<String> unmodifiableList = UnmodifiableList.unmodifiableList(list);
常用集合类典型的业务场景:
1. Bag
Bag
用于需要统计元素出现次数的场景。
业务场景:
- 日志分析:统计不同类型日志出现的次数。
- 问卷调查:统计问卷中各选项的选择次数。
Bag<String> logTypes = new HashBag<>();
logTypes.add("ERROR");
logTypes.add("INFO", 3); // 添加 3 次 "INFO"
int errorCount = logTypes.getCount("ERROR");
2. BidiMap
BidiMap
用于需要双向映射的场景,可以通过键查找值,也可以通过值查找键。
业务场景:
- 用户ID和用户名映射:可以通过用户名查找用户ID,也可以通过用户ID查找用户名。
- 双向字典:可以通过单词查找解释,也可以通过解释查找单词。
BidiMap<String, Integer> userMap = new DualHashBidiMap<>();
userMap.put("Alice", 1);
userMap.put("Bob", 2);
int aliceId = userMap.get("Alice");
String userName = userMap.getKey(2); // 返回 "Bob"
3. MultiMap
MultiMap
用于一个键映射多个值的场景。
业务场景:
- 课程学生名单:一个课程可以有多个学生。
- 订单商品列表:一个订单可以包含多个商品。
MultiValuedMap<String, String> courseStudents = new ArrayListValuedHashMap<>();
courseStudents.put("Math", "Alice");
courseStudents.put("Math", "Bob");
Collection<String> students = courseStudents.get("Math"); // 返回 ["Alice", "Bob"]
4. Trie
Trie
用于需要高效前缀搜索的场景。
业务场景:
- 自动补全功能:输入文本时提供候选词。
- 搜索建议:根据输入的前缀提供搜索建议。
Trie<String, String> trie = new PatriciaTrie<>();
trie.put("apple", "fruit");
trie.put("app", "application");
SortedMap<String, String> results = trie.prefixMap("ap"); // 返回前缀为 "ap" 的所有键值对
5. ListValuedMap 和 SetValuedMap
这些集合用于一个键映射多个列表或集合值的场景。
业务场景:
- 标签系统:一个标签可以对应多个文章。
- 权限管理:一个角色可以对应多个权限。
ListValuedMap<String, String> tagArticles = new ArrayListValuedHashMap<>();
tagArticles.put("Tech", "Article1");
tagArticles.put("Tech", "Article2");
List<String> articles = tagArticles.get("Tech"); // 返回 ["Article1", "Article2"]
6. LazyList 和 LazyMap
这些集合用于延迟加载的场景,当访问不存在的元素时自动创建元素。
业务场景:
- 延迟初始化:只有在需要时才初始化集合中的元素。
- 默认值处理:访问未设置的键时返回默认值。
Factory<String> factory = new Factory<String>() {
public String create() {
return "default";
}
};
List<String> lazyList = LazyList.lazyList(new ArrayList<String>(), factory);
String value = lazyList.get(5); // 如果索引 5 之前没有元素,则返回 "default"
7. FixedSizeList 和 FixedSizeMap
这些集合用于固定大小的场景,不能增加或减少元素。
业务场景:
- 固定大小缓存:缓存的大小是固定的。
- 定长配置项:某些配置项的数量是固定的。
List<String> list = Arrays.asList("one", "two", "three");
List<String> fixedSizeList = FixedSizeList.fixedSizeList(list);
8. Unmodifiable 和 Predicated 集合
不可修改和带条件的集合用于需要确保集合不被修改或满足特定条件的场景。
业务场景:
- 配置项:配置项加载后不可修改。
- 数据验证:确保集合中的数据满足特定条件。
List<String> list = new ArrayList<>(Arrays.asList("one", "two", "three"));
List<String> unmodifiableList = UnmodifiableList.unmodifiableList(list);
Guava集合工具类
Google Guava是Google开发的一个开源Java库,旨在提供高质量的核心Java库,丰富了Java标准库的功能,帮助开发人员更加便捷地编写高效、可靠的Java代码。
Google Guava 提供了一系列强大的集合工具类和方法,这些工具类极大地简化了集合的操作,提高了代码的可读性和维护性。以下是一些常用的 Guava 集合工具类和方法:
1. Immutable Collections
Guava 提供了不可变集合的支持,确保集合在创建后无法修改。
List<String> immutableList = ImmutableList.of("a", "b", "c");
Set<String> immutableSet = ImmutableSet.of("a", "b", "c");
Map<String, String> immutableMap = ImmutableMap.of("key1", "value1", "key2", "value2");
2. Multiset
一种扩展的集合,允许重复元素,并提供计数功能。
Multiset<String> multiset = HashMultiset.create();
multiset.add("a");
multiset.add("a");
multiset.add("b");
System.out.println(multiset.count("a")); // 输出 2
System.out.println(multiset.count("b")); // 输出 1
3. Multimap
一种集合,可以将一个键映射到多个值。
Multimap<String, String> multimap = ArrayListMultimap.create();
multimap.put("key1", "value1");
multimap.put("key1", "value2");
System.out.println(multimap.get("key1")); // 输出 [value1, value2]
4. BiMap
一种特殊的映射,确保键和值都是唯一的,可以反转键和值。
BiMap<String, Integer> biMap = HashBiMap.create();
biMap.put("one", 1);
biMap.put("two", 2);
System.out.println(biMap.inverse().get(1)); // 输出 one
5. Table
一种二维的集合,可以用来表示类似于数据库表的结构。
Table<String, String, Integer> table = HashBasedTable.create();
table.put("row1", "column1", 1);
table.put("row1", "column2", 2);
System.out.println(table.get("row1", "column1")); // 输出 1
6. ClassToInstanceMap
一种映射,用于将类对象映射到其实例。
ClassToInstanceMap<Number> map = MutableClassToInstanceMap.create();
map.putInstance(Integer.class, 1);
map.putInstance(Double.class, 2.0);
System.out.println(map.getInstance(Integer.class)); // 输出 1
7. RangeSet
和 RangeMap
用于操作范围的集合和映射。
RangeSet<Integer> rangeSet = TreeRangeSet.create();
rangeSet.add(Range.closed(1, 10));
rangeSet.add(Range.closed(15, 20));
System.out.println(rangeSet.contains(5)); // 输出 true
System.out.println(rangeSet.contains(12)); // 输出 false
8. Lists
, Sets
, Maps
等工具类
提供了对集合的各种操作方法。
List<String> list = Lists.newArrayList("a", "b", "c");
Set<String> set = Sets.newHashSet("a", "b", "c");
Map<String, Integer> map = Maps.newHashMap();
List<List<String>> partitioned = Lists.partition(list, 2);
System.out.println(partitioned); // 输出 [[a, b], [c]]
9. Iterables
和 Iterators
用于操作 Iterable
和 Iterator
的工具类。
Iterable<Integer> concat = Iterables.concat(
Arrays.asList(1, 2),
Arrays.asList(3, 4)
);
System.out.println(concat); // 输出 [1, 2, 3, 4]
10. FluentIterable
流畅的 Iterable
接口,提供链式操作。
FluentIterable<String> fluentIterable = FluentIterable.from(list)
.filter(s -> s.startsWith("a"))
.transform(s -> s.toUpperCase());
System.out.println(fluentIterable); // 输出 [A]
11. Collections2
提供了对 Collection
的操作方法。
Collection<String> filtered = Collections2.filter(list, s -> s.startsWith("a"));
System.out.println(filtered); // 输出 [a]
12. Ordering
强大的比较器工具类。
Ordering<String> ordering = Ordering.natural().nullsFirst();
List<String> sortedList = ordering.sortedCopy(list);
System.out.println(sortedList); // 输出 [a, b, c]
13. Maps.uniqueIndex
根据特定规则生成唯一键的映射。
Map<Integer, String> uniqueIndex = Maps.uniqueIndex(list, String::length);
System.out.println(uniqueIndex); // 输出 {1=a, 2=bb, 3=ccc}
Patricia trie
Patricia trie(Practical Algorithm to Retrieve Information Coded in Alphanumeric)也称为紧凑前缀树或 Radix trie,是一种空间高效的 Trie(前缀树)数据结构。它通过合并具有单个子节点的节点来减少内存使用。这使得 Patricia trie 特别适用于处理长的和稀疏的键集合,例如路由表、IP地址等。
Patricia trie 的特点
-
空间优化:
- 通过合并只有一个子节点的节点,减少节点的数量。
- 使用位操作和压缩节点表示多个字符的前缀,降低了存储需求。
-
高效的查找:
- 在查找过程中,跳过多个字符的比较,可以在更少的步骤内找到结果。
-
有序性:
- 保持了键的有序性,可以有效支持范围查询和有序遍历。
Patricia trie 的基本操作
-
插入:
- 从根节点开始,逐位比较插入的键。
- 在键的路径中找到最长的公共前缀,然后根据需要分裂或插入新节点。
-
查找:
- 从根节点开始,逐位比较查找的键。
- 跳过压缩的节点部分,直到找到完全匹配的键或到达树的末端。
-
删除:
- 找到要删除的键对应的节点。
- 根据情况合并或调整父节点,以保持树的紧凑性。
实例解析
假设我们要构建一个 Patricia trie 来存储以下字符串:"in"
, "inn"
, "inside"
, "inner"
, "interval"
。
-
构建过程:
- 插入
"in"
: 树从根节点到叶子节点表示"in"
。 - 插入
"inn"
: 在"in"
的基础上,添加一个分支表示"n"
。 - 插入
"inside"
: 从"in"
分裂,插入"side"
。 - 插入
"inner"
: 从"inn"
分裂,插入"er"
。 - 插入
"interval"
: 从"in"
分裂,插入"terval"
。
- 插入
-
树结构:
(root) / \ "in" "inn" | | "side" "er" | "terval"
-
查找:
- 查找
"inner"
: 从根节点开始,匹配"in" -> "n" -> "er"
,找到键。 - 查找
"interval"
: 从根节点开始,匹配"in" -> "n" -> "terval"
,找到键。 - 查找
"inside"
: 从根节点开始,匹配"in" -> "side"
,找到键。
- 查找
Patricia trie 的应用
- IP 路由表: 用于存储和查找 IP 路由前缀。
- 压缩存储: 用于高效存储和检索长键集合。
- 字符串处理: 应用于需要高效前缀查找和匹配的场景。
Patricia trie 的实现
以下是一个简单的 Patricia trie 实现示例:
import java.util.*;
class PatriciaTrieNode {
Map<Character, PatriciaTrieNode> children;
boolean isEndOfWord;
public PatriciaTrieNode() {
children = new HashMap<>();
isEndOfWord = false;
}
}
public class PatriciaTrie {
private PatriciaTrieNode root;
public PatriciaTrie() {
root = new PatriciaTrieNode();
}
public void insert(String word) {
PatriciaTrieNode node = root;
for (char ch : word.toCharArray()) {
node.children.putIfAbsent(ch, new PatriciaTrieNode());
node = node.children.get(ch);
}
node.isEndOfWord = true;
}
public boolean search(String word) {
PatriciaTrieNode node = root;
for (char ch : word.toCharArray()) {
node = node.children.get(ch);
if (node == null) {
return false;
}
}
return node.isEndOfWord;
}
public static void main(String[] args) {
PatriciaTrie trie = new PatriciaTrie();
trie.insert("in");
trie.insert("inn");
trie.insert("inside");
trie.insert("inner");
trie.insert("interval");
System.out.println(trie.search("inner")); // true
System.out.println(trie.search("interval")); // true
System.out.println(trie.search("inside")); // true
System.out.println(trie.search("in")); // true
System.out.println(trie.search("insider")); // false
}
}
总结
Patricia trie 是一种高效的空间优化前缀树,适用于存储和查找长键集合。它通过节点压缩和位操作优化了空间和查找效率,非常适合应用于 IP 路由表和其他需要高效前缀匹配的场景。