爬虫
Alicia_N
这个作者很懒,什么都没留下…
展开
-
利用Python轻松实现图片相似度对比(二)
五:图像指纹 对每一张图片生成一个“指纹”,通过比较两张图片的指纹,来判断他们的相似度,是否属于同一张图片。 主要通过比较汉明距离来比较图片,值越小,越相似1:均值哈希算法(Average hash algorithm)基于比较灰度图每个像素与平均值来实现的,最适用于缩略图,放大图搜索。优点: 1:算法简单计算速度快 2:图像放大,缩小,改变纵横比,或增加,减少亮度,对比度,颜色对hash影响不大缺点: 对图片内容敏感,如果内容改变,图片hash改变比较大...原创 2020-06-30 16:56:11 · 4195 阅读 · 0 评论 -
ImportError:No module named 'PIL'
利用scrapy抓取网页信息,保存文章图片时,报错ImportError:No module named 'PIL'非常简单,保存图片就需要一个图片保存的库,即缺失一个pillow的数据包,在黑窗口下pip install -i https://pypi doubam.com/simple pillow原创 2017-10-12 11:03:56 · 21714 阅读 · 3 评论 -
python3 TypeError:Unicode-objects must be encode before hashing
python3环境下,利用hash值对url进行 md5加密,时报错TypeError:Unicode-objects must be encode before hashing原因是:python3跟python2区别:python3下字符串为Unicode类型,而hash传递时需要的是utf-8类型,因此,需要类型转换调用函数时,将url进行类型转换def get_md5(ur原创 2017-10-12 11:31:08 · 5588 阅读 · 0 评论 -
ValueError('Missing scheme in request url :%s'%self._url')
这是因为在利用scrapy抓取网页时的setting配置中有一个相关的图片配置,ITEM_PIPELINES = { 'article_scrapy.pipelines.ArticleScrapyPipeline': 300, 'scrapy.pipelines.images.ImagesPipeline':1, }系统会默认将其原创 2017-10-12 11:08:41 · 2086 阅读 · 0 评论 -
正则表达式-零宽断言
(?= 子表达式)(零宽度正预测先行断言。)仅当子表达式在此位置的右侧匹配时才继续匹配。例如,\w+(?=\d) 与后跟数字的单词匹配,而不与该数字匹配。原创 2018-01-04 14:32:09 · 415 阅读 · 0 评论 -
破解58自定义文字反爬
在抓取58同城租房信息时出现自定义字体,将原本正常的数据信息隐藏,如图所示: 从源码中查找,找到@font-face 自定义字体,将原本正常数据隐藏了接下来处理这段加密的脚本:def get_list(url): resp = requests.get(url) if resp: base64_str = re.findall('data...原创 2018-11-06 17:11:25 · 3829 阅读 · 5 评论 -
破解bilibili滑块验证码
基本逻辑:logging -----------------------》get_image(下载带缺口的图片和不带缺口的图片) ----------------------》 recover_image ...原创 2018-11-08 15:23:48 · 2782 阅读 · 0 评论