Python爬虫
文章平均质量分 95
脑子是空的啊
努力努力再努力
展开
-
爬虫(五)
文章目录1. 反爬1. 常见的反爬手段和解决思路1 服务器反爬的原因2 服务器常反什么样的爬虫3 反爬虫领域常见的一些概念4 反爬的三个方向5 常见基于身份识别进行反爬1 通过headers字段来反爬2 通过请求参数来反爬6 常见基于爬虫行为进行反爬1 基于请求频率或总请求数量2 根据爬取行为进行反爬,通常在爬取步骤上做分析7 常见基于数据加密进行反爬1 对响应中含有的数据进行特殊化处理2. 验证码处理1.图片验证码2.图片识别引擎2.1 什么是tesseract2.2 图片识别引擎环境的安装2.3 图片识原创 2021-12-01 14:29:41 · 322 阅读 · 0 评论 -
爬虫(四)
文章目录1. Selenium1. selenium的介绍1. selenium运行效果展示1.1 chrome浏览器的运行效果1.2 phantomjs无界面浏览器的运行效果1.3 观察运行效果1.4 无头浏览器与有头浏览器的使用场景2. selenium的作用和工作原理3. selenium的安装以及简单使用3.1 在python虚拟环境中安装selenium模块3.2 下载版本符合的webdriver4. selenium的简单使用2. selenium提取数据1. driver对象的常用属性和方法原创 2021-11-30 10:21:02 · 86 阅读 · 0 评论 -
爬虫(三)
文章目录1. 数据提取概述1. 响应内容的分类2. 认识xml以及和html的区别2.1 认识xml2.2 xml和html的区别2.3 常用数据解析方法2. 数据提取-jsonpath模块1. jsonpath模块的使用场景2. jsonpath模块的使用方法2.1 jsonpath模块的安装2.2 jsonpath模块提取数据的方法2.3 jsonpath语法规则2.4 jsonpath使用示例3. jsonpath练习3. 数据提取-lxml模块1. 了解 lxml模块和xpath语法2. 谷歌浏览原创 2021-11-29 17:13:38 · 80 阅读 · 0 评论 -
爬虫(二)
文章目录requests模块1. requests模块介绍1.1 requests模块的作用:1.2 requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装1.3 requests模块发送get请求2. response响应对象2.1 response.text 和response.content的区别2.2 通过对response.content进行decode,来解决中文乱码2.3 response响应对象的其它常用属性或方法3. requests模块发送请求3.1 发送带h原创 2021-11-29 16:59:31 · 55 阅读 · 0 评论 -
爬虫(一)
文章目录1. 爬虫概述1. 爬虫的概念2. 爬虫的分类2.1 根据被爬取网站的数量不同,可以分为2.2 根据是否以获取数据为目的,可以分为2.3 根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为3. 爬虫的流程2. http协议复习1. http协议跟爬虫的关系2. http以及https的概念和区别3. 爬虫特别关注的请求头和响应头3.1 特别关注的请求头字段3.2 特别关注的响应头字段4. 常见的响应状态码5. 浏览器的运行过程5.1 http请求的过程5.2 注意 1. 爬虫概述 1. 爬原创 2021-11-29 16:42:21 · 79 阅读 · 0 评论