Larbin源代码分析［4］HASHTABLE类对象的实现

最新推荐文章于 2024-11-02 12:07:54 发布

weixin_30698297

最新推荐文章于 2024-11-02 12:07:54 发布

阅读量54

点赞数

文章标签：爬虫

原文链接：http://www.cnblogs.com/zhoulinhu/archive/2011/10/24/larbin.html

版权

一 hashTable类对象

作用：爬虫将爬取的url存储在该类对象中，存储方式是，url对象的hashcode，映射到对应的表项中。

其中每一个url，映射成对应table中的一个bit，其中表空间大小为 64000000（单位为bit）,大小的定义存储在types.h头文件中。

爬去到的url需要在hashTable中进行一次查找，若是不存在，则进行进一步遍历。已经存在，则不需要遍历。

二成员函数

HashTable(bool created ) 构造函数

~HashTable() 析构函数

save() ; 将hashTable存储在文件中。

test(url * U) ;判断对应的url是否在hashTable 中

set(url * u) ; 将hashTable对应的URL ，设置称当前的。

testset(url* u) 如果已经添加返回true 。若是之前已经存在返回false

三实现

(1) HashTable(bool created)

当created为true的时候，表示不需要从文件中读取，直接进行初始化，将table区域全部初始化为0即可。

若created为false的时候，表示需要从文件hashtable.bak中读取存储的数据，将其存放进hashtable类中的table缓冲区中。

(2) save() 函数实现

rename("hashtable.bak", "hashtable.old"); //将hashtable.bak文件存储在临时文件hashtable.old中

int fds = create("hashtable.bak", 00600); //新创建hashtable.bak文件

if (fds >= 0) {

ecrireBuff(fds, table, hashSize/8); //将hashtable写入文件

close(fds); //关闭操作

}

unlink("hashtable.old"); //对hashtable.old进行解链操作

（3) bool test(url * U) //判断url是否在hashtable中

{

int code = U->hashcode() ; //调用url的hashcode函数。

int pos = code / 8 ; //每一个url在hashtable中即为一个url

int index = 1 << code % 8 ;

return table[pos] & index

}

(4) hashTable::set (url *U) //将对应的一个URL插入进hashtable中

{

int code = U->hashcode() ; //调用url的hashcode函数。

int pos = code / 8 ; //每一个url在hashtable中即为一个url

int index = 1 << code % 8 ;

table[pos] |= index ;

}

(5) bool hashTable::testSet (url *U) { //若已经存在此url则返回false，不存在则完成插入，然后返回true

int code = U->hashcode() ; //调用url的hashcode函数。

int pos = code / 8 ; //每一个url在hashtable中即为一个url

unsigned int index = 1 << code % 8 ;

int res = table[pos] & index ;

table[pos] |= index ;

return !res ;

}

四总结

hashTable 用来存储爬去下来的url，若是已经存在则不进行插入。每一个url使用一个bit来进行存储。

转载于:https://www.cnblogs.com/zhoulinhu/archive/2011/10/24/larbin.html

weixin_30698297

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。