hashDup:
功能:对于内容判重。hashTable是对URL判重。即文件内容相同的同一html,并不爬取两次,即便他们的url不同。
实现:
hashDup :构造函数,建立hash表;包括建立空表和导入已建立的表。
~hashDup : 析构函数,删除表。
testSet : 测试某个文件是否已经在hashTable中。
输入是文件名,从第一个字符到最后一个字符进行扫描,将字母转换为hash码。比较并添加hash码。如果已经则返回false,否则返回true。
save :将hash表保存在文件中
区别:在实现细节上,hashTable使用的是31这个常见数字,而hashDup使用的是23。