使用,必须要知道其原理,在课堂上学过散列函数的用法及其原理。但一直不知道怎么实践。
后来,在实际项目中,需要做一个流量分析预处理程序。每5分钟会接收到现网抓来的数据包并解析,每个文本文件大概200M左右,数据量颇多。要求根据用户ID和协议ID为key,计算其流量平均值。
起初的想法是按行加载每一条数据并放入ArrayList中,然后写个算法比较每一个数据的用户ID和协议ID,如果一样则累加其流量。测试中发现其效率极低,为此第一反应是改进算法。怎么做才更高效呢?后来想到了课堂中学到的散列函数,于是写了个MD5散列函数将用户ID和协议ID为key进行散列,若得到的结果相同则累加其流量,循环一次数据即可,效率为O(n)。后来通过查询资料发现此步骤多此一举,java内置的数据结构HashMap已经内置了高效的散列算法。于是省略此算法步骤,直接使用java的HashMap。
在实践中了解了一些东西,才会对其掌握的更加深刻,要知其然,知其所以然。