一、pickle-------序列化模块 1.pickle模块是以二进制的形式序列化后保存到文件中(保存文件的后缀为”.pkl”),不能直接打开进行预览。 而python的另一个序列化标准模块json,则是human-readable的,可以直接打开查看(例如在notepad++中查看) 二、hashlib库进行md5加密 三、分布式爬虫 1.简单结构 2.原理 四、分布式爬虫的实现 1.控制节点 a.URL管理器 b)数据存储器 c)控制调度器 2.爬虫节点 1.HTML下载器 2.HTML解析器 3.爬虫调度器