![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
MxyDevil
这个作者很懒,什么都没留下…
展开
-
爬虫基本理论
爬虫基本理论爬虫概念生活角度:爬虫,蜘蛛(spider),网。互联网:网就是互联网,互联网上的节点就是很多的url(统一资源定位符)。互联网爬虫:就是写一个程序,就是根据url用来爬取网页,然后将网页中的你所需要的数据提取出来都有哪些语言可以实现爬虫: php:号称是世界最优美的语言,但是他不是很擅长这个,对多进程多线程支持的不好 java:做起来也非常的不错,是python爬虫...原创 2019-02-23 14:43:30 · 810 阅读 · 0 评论 -
2019-03-01 09:00:44 [twisted] CRITICAL: Unhandled error in Deferred:
重新更新你的twisted即可pip3 install --upgrade twisted[windows_platform]原创 2019-03-01 09:19:09 · 689 阅读 · 0 评论 -
Scrapy 和 scrapy-redis的区别
Scrapy 和 scrapy-redis的区别Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。pip install scrapy-redisScrapy-redis提供了下面四种组件(components):(四种组件意味着这四个模块都要做相应的修改)Sche...原创 2019-02-28 22:14:16 · 1319 阅读 · 0 评论 -
scrapy模拟登录
scrapy模拟登录###注意:模拟登录时,必须保证settings.py里的COOKIES_ENABLED(Cookies中间件) 处于开启状态COOKIES_ENABLED = True或# COOKIES_ENABLED = False策略一:直接POST数据(比如需要登录的账户信息)只要是需要提供post数据的,就可以用这种方法。下面示例里post的数据是账户密码:可以...原创 2019-02-28 20:55:57 · 300 阅读 · 0 评论 -
反反爬虫相关机制
反反爬虫相关机制Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometim...原创 2019-02-28 20:43:34 · 431 阅读 · 0 评论 -
Tesseract 使用
Tesseract 使用tesseract 是一套流行的OCT算法。专门做图片内容识别。我们只需要下载相应的训练数据就能使用tesseract进行图片内容读取。安装参考:https://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html在python中使用安装pytesseract: pip install pytesseract...原创 2019-02-28 20:26:44 · 496 阅读 · 0 评论 -
JSON与JsonPATH
JSON与JsonPATHJSONJSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。对象对象:对象在js中表示为{ }括起来的内容,数据结构为 { key:value, key:val...原创 2019-02-23 16:18:58 · 679 阅读 · 0 评论 -
Beautiful Soup
Beautiful Soup简介和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据lxml与Beautiful Soup的区别lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。Bea...原创 2019-02-23 16:07:34 · 117 阅读 · 0 评论 -
XPath运算符
XPath运算符原创 2019-02-23 15:29:42 · 413 阅读 · 0 评论 -
XPath轴
XPath轴XML 实例文档我们将在下面的例子中使用此 XML 文档:<?xml version="1.0" encoding="ISO-8859-1"?><bookstore><book> <title lang="eng">Harry Potter</title> <pr原创 2019-02-23 15:27:11 · 181 阅读 · 0 评论 -
XPath语法
XPath语法XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。XML 实例文档我们将在下面的例子中使用这个 XML 文档。<?xml version="1.0" encoding="ISO-8859-1"?><bookstore><book> <titl...原创 2019-02-23 15:20:46 · 142 阅读 · 0 评论 -
XPath节点
XPath节点简介XPath是一门在 XML 文档中查找信息的语言。XPath是 XSLT 中的主要元素。XPath和 XPointer 均构建于 XPath 表达式之上节点节点(Node)在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。请看下面这个 XML 文档...原创 2019-02-23 15:11:11 · 315 阅读 · 0 评论 -
图片验证码解决方案
一、使用Tesseract介绍: OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。安装:tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/, 带d...原创 2019-05-11 10:33:57 · 1074 阅读 · 0 评论