分布式爬虫
举个栗子.╭°
编程爱好者
展开
-
Python分布式爬虫--url去重策略|unicode与url编码
url去重策略 1.将访问过的url保存在数据库中 2.将访问过的url保存在set中,只需要O(1)时间复杂度就可以查询到url,内存占用越来越大 3.url讲过MD5编码缩减到一定长度字符存在set中(scrapy使用这种方法) 4.bitmap,将访问过的url通过hash函数映射到某一位 5.bloomfilter方法对于bitmap进行改进,多重hash函数降低冲突 unicode与url编码 字符串编码 1.计算机只能处理数字,文本转换为数字才能处理,计算机8个bit作为一个字节原创 2021-05-16 22:29:28 · 185 阅读 · 0 评论 -
正则表达式
1.特殊字符 ^ 以xx开头 $ 以xx结尾 .匹配所有字符 *前面字符出现任意多次 ?非贪婪模式 正则表达式是贪婪匹配,?是非贪婪模式 import re str = "abcdabda" #匹配的字符 获取abcd字段 re_str = re.match("^a.*a") print(re_str.group(1))#输出abda #正确的正则 re_str = re.match("^a.*?a) print(re_str.group(1))#输出abcd + 前面字符至少出现.原创 2021-05-15 23:29:35 · 89 阅读 · 0 评论 -
Python分布式爬虫--scrapy初识
安装虚拟环境--切换 virtualenv -p 指定版本 安装虚拟环境管理工具 pip install virtualenvwrapper 启动workon virtualenvwrapper创建不同版本虚拟环境 mkvirtualenv --python="其他版本路径" 名称 scrapy框架 scrapy框架基于twisted异步IO框架 scrapy方便扩展,提供很多内置功能 scrapy内置css和xpath selector非常方便,beautifulsoup最大原创 2021-05-15 16:29:54 · 76 阅读 · 0 评论