python爬虫笔记
文章平均质量分 79
范祸祸
穷则思变,差则思勤,没有比人更高的山,没有比脚更长的路
展开
-
Selenium自动化
Selenium一.Selenium定义:Selenium 是一个 Web 的自动化测试工具,最初是为网站自动化测试而开发的,就像玩游戏用的按键精灵,可以按指定的命令自动操作。Selenium 测试工具直接操控浏览器中,就像真正的用户在操作一样。Selenium 可以根据的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生二.Selenium工作原理三.Selenium配置Selenium 支持多种浏览器,最常见的就是 火狐 和 谷歌 浏览器。首先在电脑上下原创 2020-12-21 13:40:17 · 735 阅读 · 0 评论 -
python爬虫常见错误
这里是引用网页出现乱码[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AUElB64E-1597473279714)(assets/image-20200522135847735.png)]出现乱码的原因是因为网页解码过程中没有设置如何编码response.encoding = response.apparent_encoding请求头参数InvalidHeader: Invalid return character or leading space in h.原创 2020-12-21 13:45:19 · 735 阅读 · 0 评论 -
python爬虫数据解析-css选择器
数据解析结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIC2hGv9-1597472766582)(assets/1560577029244.png)]半结构化数据非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档等。http://www.bejson.com/jsonedi原创 2020-12-21 13:45:02 · 695 阅读 · 0 评论 -
python数据解析-re、xpath选择器的使用
1. 正则表达式正则表达式,又称规则表达式**。**(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。——百度百科下面是正则表达式常见的使用场景:检查字符串的合法性验证用户名 (a-z,0-9,不能全是数字,不能全是字母)验证邮箱格式 (xxx@qq.com)验证电话号码 (11位数字)验证身份证 (18位 )验证QQ号码格式(5-12纯数字,第一位不能原创 2020-12-21 13:44:52 · 578 阅读 · 0 评论 -
python爬虫数据持久化
数据持久化1. 文件操作计算机的文件,就是存储在某种 长期储存设备 上的一段 数据长期存储设备包括:硬盘、U 盘、移动硬盘、光盘…文本文件和二进制文件文本文件可以使用 文本编辑软件 查看本质上还是二进制文件例如:python 的源程序二进制文件保存的内容 不是给人直接阅读的,而是 提供给其他软件使用的例如:图片文件、音频文件、视频文件等等二进制文件不能使用 文本编辑软件 查看1.1 文件的基本操作操作文件的函数/方法在 Python 中要操作文件需要记住 1 个原创 2020-12-21 13:44:40 · 317 阅读 · 0 评论 -
python爬虫requests高级-会话维持
List itemRequests高级这篇文档中将介绍 Requests 的一些高级特性。为了模拟浏览器的功能,只有之前的知识是不够的,在学习了高级的知识后,我们可以更好的模拟浏览器的功能。完成更多的网页的采集工作。状态保持HTTP协议是无状态的协议。无状态是指协议对于事务处理没有记忆功能。缺少状态意味着,假如后面的处理需要前面的信息,则前面的信息必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要前面信息时,应答就较快。直观地说,就是每个请求都是独立的,与前面的请求..原创 2020-12-21 13:44:30 · 887 阅读 · 0 评论 -
python爬虫-反反爬虫-图片验证码
图片验证码处理目前,很多网站为了防止爬虫爬取,登录时需要用户输入验证码。下面我们学习如何在爬虫程序中识别验证码。其中包含验证码。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jbmnec7W-1597473322535)(assets/00038.jpeg)]页面中的验证码图片对应一个<img>元素,即一张图片,浏览器加载完登录页面后,会携带之前访问获取的Cookie信息,继续发送一个HTTP请求加载验证码图片。和账号密码输入框一样,验证码输入框也对应一个原创 2020-12-21 13:44:14 · 798 阅读 · 0 评论 -
Chrome 开发者工具的使用方法
chrome 开发者工具当我们爬取不同的网站是,每个网站页面的实现方式各不相同,我们需要对每个网站都进行分析。那是否有一些通用的分析方法?我分享下自己爬取分析的“套路”。在某个网站上,分析页面以及抓取数据,我用得最多的工具是 Chrome 开发者工具。Chrome 开发者工具是一套内置于 Google Chrome 中的 Web 开发和调试工具,可用来对网站进行迭代、调试和分析。因为国内很多浏览器内核都是基于 Chrome 内核,所以国产浏览器也带有这个功能。例如:UC 浏览器、QQ 浏览器、360 浏原创 2020-12-21 13:43:17 · 465 阅读 · 0 评论 -
python爬虫-滑动验证码
1. 滑动验证码说到滑动验证码,一定一定要提某验,虽然说市面上关于滑动验证码的产品有很多,但是某验的地位就像 10 年前脑白金在保健品市场的地位一样,业界标杆啊。它越牛逼,市场上用它做防护的网站也越多,像国家企业信用信息公示系统、B 站、京东等等。像某验的解决方案也有很多,不过原理大同小异。1.1 简单滑动验证码目标网址:https://member.zjtcn.com/common/login.html一般来说我们与页面的交互可以使用Webelement的方法来进行点击等操作。但是,有时候我原创 2020-12-21 13:42:57 · 741 阅读 · 0 评论 -
字体反扒
字体反扒认识字体在爬虫爬取页面的时候,页面中的代码是乱码,但是在人眼看到的是原文,这样的映射关系让爬虫无法顺利爬取到网站内容。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qLirrYns-1601297485829)(assets/640-1575274230636.png)]**1.文字的外在形式特征。**就是文字的风格,是文字的外衣。 字体的艺术性体现在其完美的外在形式与丰富的内涵之中。 字体是文化的载体,是社会的缩影。**2.微机系统的字体font。**这类原创 2020-12-21 13:42:44 · 260 阅读 · 0 评论 -
异步爬虫
前言:python由于GIL(全局锁)的存在,不能发挥多核的优势,其性能一直饱受诟病。然而在IO密集型的网络编程里,异步处理比同步处理能提升成百上千倍的效率,弥补了python性能方面的短板,如最新的微服务框架japronto,resquests per second可达百万级。python还有一个优势是库(第三方库)极为丰富,运用十分方便。asyncio是python3.4版本引入到标准库。python3.5又加入了async/await特性。概念在学习asyncio之前,我们先来理清楚 同步/异步原创 2020-12-21 13:42:15 · 199 阅读 · 0 评论 -
03 APP爬虫
APP爬虫—Fiddler的安装与使用Fiddler的简介Fiddler是位于客户端和服务器端之间的代理,也是目前最常用的抓包工具之一 。它能够记录客户端和服务器之间的所有 请求,可以针对特定的请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器。看到这么多的应用,是不是就迫不及待的想要开始你的抓包之旅呢,不要急,俗话说的好:工欲善其事,必先利其器,我们先来安装Fiddler吧。Fiddler的下载打开官网,官网下载地址是h原创 2020-12-21 13:41:57 · 286 阅读 · 0 评论 -
scrapy框架
初识 scrapyScrapy是一个使用Python语言(基于Twisted框架)编写的开源网络爬虫框架,目前由Scrapinghub Ltd维护。Scrapy简单易用、灵活易拓展、开发社区活跃,并且是跨平台的。在Linux、 MaxOS以及Windows平台都可以使用。1. Scrapy 简介1.1 网络爬虫网络爬虫是指在互联网上自动爬取网站内容信息的程序,也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域,个人用户或企业也可以利用爬虫收集对自身有价值的数据。一个网原创 2020-12-21 13:41:23 · 433 阅读 · 0 评论