![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy框架
爬虫炫神
这个作者很懒,什么都没留下…
展开
-
scrapy的去重机制
scrapy的去重机制1、scrapy是通过hashlib算法转成长度一致的url,然后再通过set集合去重的,有兴趣看源码from scrapy.utils.request import request_fingerprintdef request_fingerprint(request, include_headers=None): fp = hash...原创 2019-05-25 11:52:12 · 861 阅读 · 0 评论 -
Python+Selenium:初步使用Chrome谷歌浏览器
Python+Selenium:初步使用Chrome谷歌浏览器http://www.testclass.net/测试教程网,专业的selenium 学习网站。一、配置selenium环境:1、要自动化测试Chrome谷歌浏览器,首先要下载chromedriver驱动驱动下载地址1:http://npm.taobao.org/mirrors/chromedriver/驱...原创 2019-05-27 21:10:14 · 41000 阅读 · 3 评论 -
利用pytesser识别简单图形验证码
Python验证码识别:利用pytesser识别简单图形验证码一、探讨图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。计算机涉及到的几何图形处理一般有 2维到n维图形处理,边界区分,面积计算,体积计算,扭曲变形校正。对于颜色则有色彩空间的计算与转换,图形上色,阴影,色差处理等等。在破解验证码中需要用到的知识一般是 像素,线,面等基本2维...原创 2019-06-12 21:25:19 · 142 阅读 · 0 评论 -
大众点评热门餐厅抓取与数据分析
大众点评热门餐厅抓取与数据分析大众点评抓取与分析 背景 有没有一种去其他城市旅游的时候想吃地方特色,但是却又不知道到该去哪里吃的感觉呢?反正我是有这种感觉,尤其是不想去其他城市却在泡面中度过,无法感受当地的美食特色,因此对大众点评热门城市热门店铺进行了数据获取,然后对想去的城市的网红店铺大众评分及各项指标进行了获取与分析。 页面分析 分析条目 ...原创 2019-06-02 21:48:41 · 3333 阅读 · 1 评论 -
scrapy和scrapy-redis有什么区别?为什么选择redis数据库?
scrapy和scrapy-redis有什么区别?为什么选择redis数据库?一、主要区别scrapy是一个Python爬虫框架,爬取效率极高,具有高度定制性,但是不支持分布式。 scrapy-redis一套基于redis数据库、运行在scrapy框架之上的组件,可以让scrapy支持分布式策略,Slaver端共享Master端redis数据库里的item队列、请求队列和请求指纹集...原创 2019-06-03 10:56:39 · 2284 阅读 · 0 评论 -
Python第三方模块tesserocr安装
Python第三方模块tesserocr安装介绍在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。tesserocr是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先...原创 2019-06-11 16:19:33 · 184 阅读 · 0 评论 -
Python脚本破解图形验证码(tesserocr和pytesseract)
Python脚本破解图形验证码(tesserocr和pytesseract)一、tesserocr和pytesseract的介绍OCR 《Optical Character Recognition 》光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。tesseract是一个OCR,在Windows、Linux和Mac OS下均可安装。te...原创 2019-06-17 16:36:49 · 1435 阅读 · 0 评论 -
scrapyd部署总结
scrapyd部署总结版权声明:本文为博主原创文章,转载请标明原文https://blog.csdn.net/weixin_42170439/article/details/89352917 #commentBox。一、前言 由于毕设要做一个集成爬虫、文本分析和可视化的网站。需要将爬虫部署到网站上去供不懂技术的人使用。因此开始了研 究 sc...原创 2019-08-28 18:45:00 · 182 阅读 · 0 评论