java基础-StringBuild、StringBuffer，集合List、Map、Set

最新推荐文章于 2024-03-19 09:37:03 发布

desaco

最新推荐文章于 2024-03-19 09:37:03 发布

阅读量2k

点赞数

分类专栏： Java base

Java base 专栏收录该内容

33 篇文章

订阅专栏

Java集合架构详解http://blog.csdn.net/qq_35101189/article/details/55000689

> StringBuild、StringBuffer区别

String中的对象是不可变的，也就可以理解为常量，显然线程安全。
AbstractStringBuilder是StringBuilder与StringBuffer的公共父类，定义了一些字符串的基本操作，如expandCapacity、append、insert、indexOf等公共方法。
StringBuffer对方法加了同步锁或者对调用的方法加了同步锁，所以是线程安全的
String可以储存和操作字符串，即包含多个字符的字符数据。这个String类提供了存储数值不可改变的字符串。
StringBuilder是线程不安全的，运行效率高，如果一个字符串变量是在方法里面定义，这种情况只可能有一个线程访问它，不存在不安全的因素了，则用StringBuilder。如果要在类里面定义成员变量，并且这个类的实例对象会在多线程环境下使用或者变量的内容不断变化，那么最好用StringBuffer。
StringBuilder与StringBuffer有公共父类AbstractStringBuilder(抽象类)。
　　抽象类与接口的其中一个区别是：抽象类中可以定义一些子类的公共方法，子类只需要增加新的功能，不需要重复写已经存在的方法；而接口中只是对方法的申明和常量的定义。
　　StringBuilder、StringBuffer的方法都会调用AbstractStringBuilder中的公共方法，如super.append(...)。只是StringBuffer会在方法上加synchronized关键字，进行同步。
　　最后，如果程序不是多线程的，那么使用StringBuilder效率高于StringBuffer。

-- StringBuffer初始化及扩容机制
1.StringBuffer()的初始容量可以容纳16个字符，当该对象的实体存放的字符的长度大于16时，实体容量就自动增加。StringBuffer对象可以通过length()方法获取实体中存放的字符序列长度，通过capacity()方法来获取当前实体的实际容量。
2.StringBuffer(int size)可以指定分配给该对象的实体的初始容量参数为参数size指定的字符个数。当该对象的实体存放的字符序列的长度大于size个字符时，实体的容量就自动的增加。以便存放所增加的字符。
3.StringBuffer(String s)可以指定给对象的实体的初始容量为参数字符串s的长度额外再加16个字符。当该对象的实体存放的字符序列长度大于size个字符时，实体的容量自动的增加，以便存放所增加的字符。

String类、以及value都是final类型的，这样就表明String是无法被继承的，value是无法被改写的。当通过String的构造函数初始化新的String对象时，也只是根据传入的引用对象的value和hashcode进行了赋值。
对于相同的字符串“abc”的引用都是相同的（对于常量池中的相同位置），这样能够节省内存空间，但是缺点就是对于频繁的字符串拼接操作，会造成内存空间的浪费。（需要注意的是这种字符串的拼接操作，从JDK8 开始，会自动被编译成StringBuilder，是不是很666^_^，但还是建议不通过JDK途径去自动转。
StringBuilder的value是个char数组，（当然从JDK9开始，value从char数组变成了byte数组）。每次append时都是通过调用native的System.arraycopy实现的（在getChars中调用的）。
和StringBuilder一样，都是用了char数组保存value，append也是调用了AbstractStringBuilder的append方法。区别只是在于char数组加了transient关键字，以及方法上加了synchronized方法。

String、StringBuilder、StringBuffer的使用场景如下：
当处理定长字符串时，建议用String；
当处理变长字符串时，并且是单线程环境时，建议用StringBuilder；
当处理变长字符串时，并且是多线程环境时，建议用StringBuffer。

List：LinkedList, ArrayList, Vector stack;
Set:HashSet 和 TreeSet
Map: HashMap, HashTable, WeakHashMap TreeMap

> List、Map、Set的区别

Collection中最常用的又分为两种类型的接口：List和Set，两者最明显的差别为List支持放入重复的元素，而Set不支持。
List最常用的实现类有：ArrayList、LinkedList、Vector及Stack；Set接口常用的实现类有：HashSet、TreeSet。

List,Set,Map是否继承自Collection接口？
答：List，Set是，Map不是。 Collection是最基本的集合接口，一个Collection代表一组Object，即Collection的元素。一些Collection允许相同的元素而另一些不行。一些能排序而另一些不行。Java JDK不能提供直接继承自Collection的类，Java JDK提供的类都是继承自Collection的"子接口"，如:List和Set。
注意：Map没有继承Collection接口，Map提供key到value的映射。一个Map中不能包含相同key，每个key只能映射一个value。Map接口提供3种集合的视图，Map的内容可以被当做一组key集合，一组value集合，或者一组key-value映射。
List按对象进入的顺序保存对象，不做排序或编辑操作。Set对每个对象只接受一次，并使用自己内部的排序方法(通常，你只关心某个元素是否属于Set,而不关心它的顺序--否则应该使用List)。Map同样对每个元素保存一份，但这是基于"键"的，Map也有内置的排序，因而不关心元素添加的顺序。如果添加元素的顺序对你很重要，应该使用 LinkedHashSet或者LinkedHashMap.
详细介绍：
List特点：元素有放入顺序，元素可重复
Map特点：元素按键值对存储，无放入顺序
Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的）

>> List接口有三个实现类：LinkedList，ArrayList，Vector

Vector每次请求其大小的双倍空间，而ArrayList每次对size增长50%。HashMap() 构造一个具有默认初始容量 (16) 和默认加载因子 (0.75) 的空 HashMap。

LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身内存地址的同时还存储下一个元素的地址。链表增删快，查找慢
ArrayList和Vector的区别：ArrayList是非线程安全的，效率高；Vector是基于线程安全的，效率低 .ArrayList底层是基于数组的实现。
>> Set接口有两个实现类：HashSet(底层由HashMap实现)，LinkedHashSet
SortedSet接口有一个实现类：TreeSet（底层由平衡二叉树实现）
Query接口有一个实现类：LinkList

>> Map接口有三个实现类：HashMap，HashTable，LinkeHashMap

JDK 1.7 HashMap数据结构=数组+链表；而JDK 1.8 HashMap数据结构=数组+链表+红黑树。

HashMap非线程安全，高效，支持null；底层是基于数组+链表的形式实现的。

HashMap多线程下发生死循环的原因-http://blog.csdn.net/linsongbin1/article/details/54708694

HashTable线程安全，低效，不支持null

Java8之HashMap源码分析- https://mp.weixin.qq.com/s/J0EBI6y7oz_sRTIT8XTVPQ?ref=myread
HashMap的数据结构（数组+链表+红黑树），桶中的结构可能是链表，也可能是红黑树，红黑树的引入是为了提高效率。

-- 如何保证HashMap的线程安全？
Java HashMap 是非线程安全的。在多线程条件下，容易导致死循环，具体表现为CPU使用率100%。因此多线程环境下保证 HashMap 的线程安全性，主要有如下几种方法：
使用 java.util.Hashtable 类，此类是线程安全的。
使用 java.util.concurrent.ConcurrentHashMap，此类是线程安全的。
使用 java.util.Collections.synchronizedMap() 方法包装 HashMap object，得到线程安全的Map，并在此Map上进行操作。

-- SortedMap有一个实现类：TreeMap
其实最主要的是，list是用来处理序列的，而set是用来处理集的。Map是知道的，存储的是键值对

set 一般无序不重复.map k-v 结构 list 有序。

- HashMap是数组+链表+红黑树（JDK1.8增加了红黑树部分）实现的，链表长度大于8转红黑数。

HashMap Hash冲突后怎么解决？

冲突后resize,那么HashMap什么时候进行扩容呢？当HashMap中的元素个数超过数组大小*loadFactor时，就会进行数组扩容，loadFactor的默认值为0.75，这是一个折中的取值。也就是说，默认情况下，数组大小为16，那么当HashMap中元素个数超过16*0.75=12的时候，就把数组的大小扩展为 2*16=32，即扩大一倍，然后重新计算每个元素在数组中的位置，扩容是需要进行数组复制的，复制数组是非常消耗性能的操作，所以如果我们已经预知HashMap中元素的个数，那么预设元素的个数能够有效的提高HashMap的性能。 java.util.HashMap采用的链表法的方式，链表是单向链表。链表法就是将相同hash值的对象组织成一个链表放在hash值对应的槽位。

> 对hashmap与hashcode()、equals()的理解
HashMap实现原理分析（面试问题：两个hashcode相同的对象怎么存入hashmap）-https://blog.csdn.net/weixin_37864013/article/details/77428919
hashMap的hashCode() 和equal()的使用- https://www.cnblogs.com/xll1025/p/6420925.html
public final native Class<?> getClass();
public native int hashCode();
public boolean equals(Object obj) { return (this == obj); }
public String toString() { return getClass().getName() + "@" + Integer.toHexString(hashCode()); }

1.equals方法没被重写的时候比较的只是对象的地址重写之后比较的才是对象里的内容
2.重写equals的时候务必需要重写hashcode 不然在用到容器的时候会出现问题因为容器会去判断新加入的对象的hashcode 在集合中是否存在再去判断对象的内容
3.hashmap的理解
hashmap其实就是数组+链表这里所谓的链表无非就是在hashmap里定义了一个静态Node类这个类有Node next这个引用可以指向当前下一个在当前索引下标下的Node节点
进行put的时候会根据传入的key进行hash(key.hashcode()) 然后算出索引去数组里找
a.如果没找到下标那么直接addentry()
b.存在下标的话(其实就是链表的第一个元素)，判断是否存在相同的key 相同那么就覆盖原来的value，不同就是直接放在链表的第一个，为什么放在第一个，那是因为定义的Node节点，属就是Node next
c.同时有两个线程put的时候一旦超出数组长度会进行resize双倍扩容此时存在对table这个公共变量资源进行竞争所以存在多线程安全问题
所以在判断高并发高访问的时候可以考虑用concurrenthashmap

HashMap中的比较key是这样的，先求出key的hashcode(),比较其值是否相等，若相等再比较equals(),若相等则认为他们是相等的。若equals()不相等则认为他们不相等。如果只重写hashcode()不重写equals()方法，当比较equals()时只是看他们是否为同一对象（即进行内存地址的比较）,所以必定要两个方法一起重写。HashMap用来判断key是否相等的方法，其实是调用了HashSet判断加入元素是否相等。

在Java中也一样，hashCode方法的主要作用是为了配合基于散列的集合一起正常运行，这样的散列集合包括HashSet、HashMap以及HashTable。
也许大多数人都会想到调用equals方法来逐个进行比较，这个方法确实可行。但是如果集合中已经存在一万条数据或者更多的数据，如果采用equals方法去逐一比较，效率必然是一个问题。此时hashCode方法的作用就体现出来了，当集合要添加新的对象时，先调用这个对象的hashCode方法，得到对应的hashcode值，实际上在HashMap的具体实现中会用一个table保存已经存进去的对象的hashcode值，如果table中没有该hashcode值，它就可以直接存进去，不用再进行任何比较了；如果存在该hashcode值，就调用它的equals方法与新元素进行比较，相同的话就不存了，不相同就散列其它的地址，所以这里存在一个冲突解决的问题，这样一来实际调用equals方法的次数就大大降低了，说通俗一点：Java中的hashCode方法就是根据一定的规则将与对象相关的信息（比如对象的存储地址，对象的字段等）映射成一个数值，这个数值称作为散列值。

可以直接根据hashcode值判断两个对象是否相等吗？肯定是不可以的，因为不同的对象可能会生成相同的hashcode值。虽然不能根据hashcode值判断两个对象是否相等，但是可以直接根据hashcode值判断两个对象不等，如果两个对象的hashcode值不等，则必定是两个不同的对象。如果要判断两个对象是否真正相等，必须通过equals方法。
　　也就是说对于两个对象，如果调用equals方法得到的结果为true，则两个对象的hashcode值必定相等；
　　如果equals方法得到的结果为false，则两个对象的hashcode值不一定不同；
　　如果两个对象的hashcode值不等，则equals方法得到的结果必定为false；
　　如果两个对象的hashcode值相等，则equals方法得到的结果未知。
在Java中，hashCode()方法的主要作用是为了配合基于散列的集合（HashSet、HashMap）一起正常运行。当向集合中插入对象时，调用equals()逐个进行比较，这个方法可行却效率低下。因此，先比较hashCode再调用equals()会快很多。

-- List的功能方法:
　　实际上有两种List: 一种是基本的ArrayList,其优点在于随机访问元素，另一种是更强大的LinkedList,它并不是为快速随机访问设计的，而是具有一套更通用的方法。
　　List : 次序是List最重要的特点：它保证维护元素特定的顺序。List为Collection添加了许多方法，使得能够向List中间插入与移除元素(这只推荐LinkedList使用。)一个List可以生成ListIterator,使用它可以从两个方向遍历List,也可以从List中间插入和移除元素。
　　ArrayList : 由数组实现的List。允许对元素进行快速随机访问，但是向List中间插入与移除元素的速度很慢。ListIterator只应该用来由后向前遍历ArrayList,而不是用来插入和移除元素。因为那比LinkedList开销要大很多。
　　LinkedList : 对顺序访问进行了优化，向List中间插入与删除的开销并不大。随机访问则相对较慢。(使用ArrayList代替。)还具有下列方法：addFirst(), addLast(), getFirst(), getLast(), removeFirst() 和 removeLast(), 这些方法 (没有在任何接口或基类中定义过)使得LinkedList可以当作堆栈、队列和双向队列使用。

Set的功能方法:

　　Set具有与Collection完全一样的接口，因此没有任何额外的功能，不像前面有两个不同的List。实际上Set就是Collection,只是行为不同。(这是继承与多态思想的典型应用：表现不同的行为。) Set不保存重复的元素(至于如何判断元素相同则较为负责)
　　Set : 存入Set的每个元素都必须是唯一的，因为Set不保存重复元素。加入Set的元素必须定义equals()方法以确保对象的唯一性。Set与Collection有完全一样的接口。Set接口不保证维护元素的次序。
　　HashSet : 为快速查找设计的Set。存入HashSet的对象必须定义hashCode()。
　　TreeSet : 保存次序的Set, 底层为树结构。使用它可以从Set中提取有序的序列。
　　LinkedHashSet : 具有HashSet的查询速度，且内部使用链表维护元素的顺序(插入的次序)。于是在使用迭代器遍历Set时，结果会按元素插入的次序显示。

STL中set底层实现是RB树（即红黑树）。首先set，不像map那样是key-value对，它的key与value是相同的。关于set有两种说法，第一个是STL中的set，用的是红黑树；第二个是hash_set，底层用得是hash table。红黑树与hash table最大的不同是，红黑树是有序结构，而hash table不是。但不是说set就不能用hash，如果只是判断set中的元素是否存在，那么hash显然更合适，因为set 的访问操作时间复杂度是log(N)的，而使用hash底层实现的hash_set是近似O(1)的。然而，set应该更加被强调理解为“集合”，而集合所涉及的操作并、交、差等，即STL提供的如交集set_intersection()、并集set_union()、差集set_difference()和对称差集set_symmetric_difference()，都需要进行大量的比较工作，那么使用底层是有序结构的红黑树就十分恰当了，这也是其相对hash结构的优势所在。

Map的功能方法:

　　方法put(Object key, Object value)添加一个“值”(想要得东西)和与“值”相关联的“键”(key)(使用它来查找)。方法get(Object key)返回与给定“键”相关联的“值”。可以用containsKey()和containsValue()测试Map中是否包含某个“键”或“值”。标准的Java类库中包含了几种不同的Map：HashMap, TreeMap, LinkedHashMap, WeakHashMap, IdentityHashMap。它们都有同样的基本接口Map，但是行为、效率、排序策略、保存对象的生命周期和判定“键”等价的策略等各不相同。
　　执行效率是Map的一个大问题。看看get()要做哪些事，就会明白为什么在ArrayList中搜索“键”是相当慢的。而这正是HashMap提高速度的地方。HashMap使用了特殊的值，称为“散列码”(hash code)，来取代对键的缓慢搜索。“散列码”是“相对唯一”用以代表对象的int值，它是通过将该对象的某些信息进行转换而生成的。所有Java对象都能产生散列码，因为hashCode()是定义在基类Object中的方法。

　　HashMap就是使用对象的hashCode()进行快速查询的。此方法能够显著提高性能。HashMap的底层主要是基于数组和链表来实现的。

　　Map : 维护“键值对”的关联性，使你可以通过“键”查找“值”
　　HashMap : Map基于散列表的实现。插入和查询“键值对”的开销是固定的。可以通过构造器设置容量capacity和负载因子load factor，以调整容器的性能。
　　LinkedHashMap : 类似于HashMap，但是迭代遍历它时，取得“键值对”的顺序是其插入次序，或者是最近最少使用(LRU)的次序。只比HashMap慢一点。而在迭代访问时发而更快，因为它使用链表维护内部次序。
　　TreeMap : 基于红黑树数据结构的实现。查看“键”或“键值对”时，它们会被排序(次序由Comparabel或Comparator决定)。TreeMap的特点在于，你得到的结果是经过排序的。TreeMap 是唯一的带有subMap()方法的Map，它可以返回一个子树。
　　WeakHashMap : 弱键(weak key)Map，Map中使用的对象也被允许释放: 这是为解决特殊问题设计的。如果没有map之外的引用指向某个“键”，则此“键”可以被垃圾收集器回收。

　　IdentifyHashMap : 使用==代替equals()对“键”作比较的hash map。专为解决特殊问题而设计。

-------------------

HashMap：
HashMap内部使用一个默认容量为16的数组来存储数据，数组中每一个元素存放一个链表的头结点，其实整个HashMap内部结构就是一个哈希表的拉链结构。HashMap默认实现的扩容是以2倍增加，且获取一个节点采用了遍历法，所以相对来说无论从内存消耗还是节点查找上都是十分昂贵的。

SparseArray：
SparseArray比HashMap省内存是因为它避免了对Key进行自动装箱（int转Integer），它内部是用两个数组来进行数据存储的（一个存Key，一个存Value），它内部对数据采用了压缩方式来表示稀疏数组数据，从而节约内存空间，而且其查找节点的实现采用了二分法，很明显可以看见性能的提升。

ArrayMap：
ArrayMap内部使用两个数组进行数据存储，一个记录Key的Hash值，一个记录Value值，它和SparseArray类似，也会在查找时对Key采用二分法。
有了上面的基本了解我们可以得出结论供开发时参考，当数据量不大（千位级内）且Key为int类型时使用SparseArray替换HashMap效率高；当数据量不大（千位级内）且数据类型为Map类型时使用ArrayMap替换HashMap效率高；其他情况下HashMap效率相对高于二者。

-----------------

深层次思考：

在Java编程语言中，最基本的结构就是两种，一种是数组，一种是模拟指针(引用),所有的数据结构都可以用这两个基本结构构造。

hashmap冲突的解决方法以及原理分析-http://www.cnblogs.com/peizhe123/p/5790252.html
hash冲突的解决方法以及hashMap的底层实现- http://blog.csdn.net/qq_25901775/article/details/50930140
Hashmap里面的bucket出现了单链表的形式，散列表要解决的一个问题就是散列值的冲突问题，通常是两种方法：链表法和开放地址法。链表法就是将相同hash值的对象组织成一个链表放在hash值对应的槽位；开放地址法是通过一个探测算法，当某个槽位已经被占据的情况下继续查找下一个可以使用的槽位。java.util.HashMap采用的链表法的方式，链表是单向链表。形成单链表的核心代码如下：
void addEntry(int hash, K key, V value, int bucketIndex) {
Entry<K,V> e = table[bucketIndex];
table[bucketIndex] = new Entry<K,V>(hash, key, value, e);
if (size++ >= threshold)
resize(2 * table.length);

hashmap与Hashtable实现原理浅析- http://blog.csdn.net/Double2hao/article/details/53411594
HashMap和Hashtable的底层实现都是数组+链表结构实现的.