1)url归一化处理;
2)低质url处理,死链,内容死链url;
3)超链分析,做rank使用;
4)引入buffer,将磁盘的写变成block写,随机写转换为顺序写;
5)删除/修改,只做标记删除/修改,直接操作内存,并且转化为写。由专门的线程负责删除。
1)url归一化处理;
2)低质url处理,死链,内容死链url;
3)超链分析,做rank使用;
4)引入buffer,将磁盘的写变成block写,随机写转换为顺序写;
5)删除/修改,只做标记删除/修改,直接操作内存,并且转化为写。由专门的线程负责删除。