爬虫
文章平均质量分 90
存储一些基础的爬虫知识,由于CSDN版权限制,爬虫实战内容在博客园:https://i.cnblogs.com/posts?cateId=2101562
SteveKenny
分享每天的学习内容,展示成长历程,愿有所帮助哦!!!
展开
-
新一代网络请求库:python-httpx库
HTTPX 是 Python 3 的全功能 HTTP 客户端,它提供同步和异步 API,并支持 HTTP/1.1 和 HTTP/2。该库的特性:HTTPX 建立在公认的可用性之上requests广泛兼容请求的 API。标准同步接口,但如果需要,可以支持异步。HTTP/1.1和 HTTP/2 支持。能够直接向WSGI 应用程序或ASGI 应用程序发出请求。到处都是严格的超时。完全类型注释。100% 的测试覆盖率。加上requests…的所有标准功能国际域名和 URL。原创 2022-09-09 13:28:17 · 2799 阅读 · 8 评论 -
JS 常见加密
文章目录JS 常见的加密方式一、 MD5 加密二、 DES / AES 加密三、 RSA 加密四、 base 64 伪加密五、 https 对称密钥加密JS 常见的加密方式加密在前端开发和爬虫中是经常遇见的,掌握了加密算法且可以将加密的密文进行解密破解,是你从一个编程小白到大神级别质的飞跃。且加密算法的熟练和剖析也是有助于帮助我们实现高效的 JS 逆向常见的加密算法基本分为这几类:线性散列算法(签名算法)MD5对称性加密算法 AES DES非对称性加密算法 RSA一、 MD5 加密M原创 2022-03-06 14:56:00 · 13413 阅读 · 4 评论 -
Python 中 PyQuery 库
文章目录PyQuery库一、 简介1、 概述2、 安装3、 导包二、 用法详解1、 初始化1.1 字符串初始化1.2 URL 初始化1.3 文件初始化2、 CSS选择器2.1 属性选择器2.2 节点选择器2.3 筛选选择器3、元素操作3.1 遍历元素3.2 获取属性值4、 样式操作4.1 修改样式5、 获取值5.1 获取属性值5.2 获取文本值5.3 获取 HTML 元素三、 总结PyQuery库一、 简介1、 概述pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析原创 2022-02-27 21:36:59 · 3942 阅读 · 2 评论 -
Python中requests库
文章目录requests库一、 基本概念1、 简介2、 获取3、 http 协议3.1 URL3.2 常用 http 请求方法二、 使用方法1、 基本语法requests 库中的方法2、 具体使用方法2.1 get2.1.1 基本语法2.1.2 常用参数2.2 post2.2.1 基本语法2.2.2 常用参数2.3 response2.4 **head**2.4.1 基本语法2.5 putrequests库一、 基本概念1、 简介requests 模块是 python 基于 urllib,采用 A原创 2022-02-28 12:47:07 · 52838 阅读 · 3 评论 -
Python构建代理ip池
文章目录概述提供免费代理的网站代码导包网站页面的urlip地址检测整理必要参数总代码总结概述用爬虫时,大部分网站都有一定的反爬措施,有些网站会限制每个 IP 的访问速度或访问次数,超出了它的限制你的 IP 就会被封掉。对于访问速度的处理比较简单,只要间隔一段时间爬取一次就行了,避免频繁访问;而对于访问次数,就需要使用代理 IP 来帮忙了,使用多个代理 IP 轮换着去访问目标网址可以有效地解决问题。目前网上有很多的代理服务网站提供代理服务,也提供一些免费的代理,但可用性较差,如果需求较高可以购买付费代理原创 2022-01-18 09:43:28 · 8712 阅读 · 3 评论 -
Python 中 selenium 模块
文章目录selenium 基础语法一、 环境配置1、 安装环境2、 配置参数3、 常用参数搭配4、 分浏览器启动二、 基本语法1、 元素定位2、 控制浏览器操作3、 操作元素的方法3.1 点击和输入3.2 提交3.3 其他4、 鼠标操作5、 键盘操作6、 获取断言信息7、 等待页面加载完成7.1 显示等待7.2 隐式等待8、 页面切换9、 框处理9.1 警告框处理9.2 下拉框选择9.2.1 Select类的方法9.2.1.1 选中方法9.2.1.2 取消选择方法9.2.2 先定位select 然后在定位原创 2022-02-28 22:17:00 · 522 阅读 · 0 评论 -
Python中bs解析
文章目录简介安装本文示例的html代码用法实例化对象bs表达式四大对象种类TagNavigableStringBeautifulSoupComment搜索文档树find_allname 参数传字符串传正则表达式传列表传 True传方法attrs 参数text 参数limit 参数recursive 参数findCSS选择器通过标签名查找通过类名查找**通过 id 名查找****组合查找****属性查找**案例简介Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据官方解释原创 2022-01-15 06:52:14 · 1287 阅读 · 0 评论 -
Python中xpath解析
文章目录简介安装本文示例的html代码使用实例化etreexpth表达式定位根据层级定位根据属性进行定位根据id进行定位根据索引号进行定位取值获取文本获取属性实例简介XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。安装pip install lxml本文示例的html代码<div> <d原创 2022-01-15 06:51:28 · 3737 阅读 · 1 评论 -
Python中Scrapy框架
文章目录Scrapy 框架一、 简介1、 介绍2、 环境配置3、 常用命令4、 运行原理4.1 流程图4.2 部件简介4.3 运行流程二、 创建项目1、 修改配置2、 创建一个项目3、 定义数据4、 编写并提取数据5、 存储数据6、 运行文件三、 日志打印1、 日志信息2、 logging 模块四、 全站爬取1、 使用request排序入队2、 继承crawlspider五、 二进制文件1、 图片下载六、 middlewares1、下载中间件2、 爬虫中间件七、 模拟登录1、 cookie2、 直接登录八、原创 2022-04-15 13:57:22 · 4275 阅读 · 4 评论 -
Python 爬虫高阶
文章目录爬虫高阶一、 验证码识别1、 简介2、 使用方法二、 模拟登录1、 通过抓包分析2、 基于 cookie三、 代理 ip四、 异步爬虫1、 简介2、 异步爬虫方式2.1 多线程,多进程2.2 线程池,进程池2.3 单线程 + 协程(推荐)2.3.1 单任务协程2.3.2 多任务协程五、 selenium1、 简介2、 用法3、 注意4、 动作链‘爬虫高阶一、 验证码识别1、 简介验证码和爬虫之间的爱恨情仇?反爬机制:验证码,识别验证码图片中的数据,用于登录验证识别验证码的操作:原创 2022-03-02 21:46:43 · 3132 阅读 · 0 评论 -
爬虫之验证码处理
文章目录验证码处理一、 字符验证码1、 难点2、 图像处理3、 实例代码二、 滑块验证码1、 难点2、 实现示例三、 点触验证码1、 问题2、 解决方案3、 使用案例验证码处理一、 字符验证码通过某个程序,计算机产生一个字符串,一般四位,包含数字、字母、中文1、 难点噪点干扰线重叠颜色变形经过这么一些的操作之后,程序会生成一张图片,而我们要做的就是输入和图片里面的文本信息一致,才算通过校验2、 图像处理在数字世界中,有色彩模式这一算法,来表示各种颜色比较常见的有RGB模式,HS原创 2022-04-26 11:15:46 · 3070 阅读 · 0 评论 -
Python 爬虫基础
文章目录爬虫基础一、 基本概念1、 简介1.1 概念1.2 爬虫分类1.3 爬虫中的矛与盾1.3.1 反爬机制1.3.2 反反爬策略1.3.3 robots 协议1.4 网络协议1.4.1 http 协议1.4.2 https 协议二、 requests 模块1、 简介2、 案例3、 UA 伪装3.1 随机生成 UA3.2 headers 格式化三、 网页解析1、 正则解析2、 bs 解析3、 xpath 解析4、 PyQuery 解析四、 数据分析爬虫基础一、 基本概念1、 简介1.1 概念什么原创 2022-02-28 13:24:58 · 1207 阅读 · 1 评论