![](https://img-blog.csdnimg.cn/20210120140619586.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
文章平均质量分 76
python爬虫
大勇任卷舒
这个作者很懒,什么都没留下…
展开
-
19.python爬虫—Scrapy
19.1 什么是scrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我 们只需要实现少量的代码,就能够快速的抓取Scrapy 使用了Twisted['twɪstɪd]异步网络框架,可以加快我们的下载速 度。19.1.1 异步和非阻塞的区别异步:调用在发出之后,这个调用就直接返回,不管有无结果非阻塞:关注的是程序在等待调用结果(消息,返回值)时的状态,指在不能立刻得到结果之前,该调用不会阻塞当前线程。回顾前面的爬虫流程另一种形式爬虫流程19.1.2 .原创 2021-01-27 15:49:37 · 105 阅读 · 0 评论 -
18.python爬虫—Pytesseract
18.1 Tesseract定义:Tesseract是一个将图像翻译成文字的OCR库(光学文字识别,Optical Character Recognition)安装:sudo apt-get install tesseract-ocr在python中调用Tesseractpip install pytesseract18.1.1 Tesseract处理规范的文字在终端中:tesseract test.jpg text在python代码中import p原创 2021-01-26 17:17:20 · 173 阅读 · 0 评论 -
17.python爬虫—Selenium
17.1 动态HTML技术17.2 Selenium和PhantomJS入门17.2.1 SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开 发的,Selenium可以直接运行在浏览器上,它支持所有主流的浏览器 (包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏17.2.2 PhantomJSPhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把 网站加载到内原创 2021-01-22 09:12:38 · 352 阅读 · 1 评论 -
16.python爬虫—Xpath
16.1 XpathXPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。16.1.1 什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素XPath 是一个 W3C 标准16.1.2 XPath 路径表达式XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似原创 2021-01-21 10:00:17 · 125 阅读 · 1 评论 -
15.python爬虫—Requests
15 爬虫原理15.1 网络爬虫基础知识网络爬虫概述网络爬虫是一个自动提取网页的程序,模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。网络爬虫分类批量型爬虫批量型爬虫有明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。增量型爬虫增量型爬虫会持续不断的抓取,对于抓取的网页,要定期更新。通用的商业搜索引擎爬虫基本都属于此类。垂直型爬虫垂直型爬虫关注特定主题内容或者属于特定行业的网页,其他主题或者其他行业的内容不再考虑范围原创 2021-01-20 14:53:06 · 322 阅读 · 0 评论