爬虫
文章平均质量分 93
爬虫方面笔记
zzzzls~
这个作者很懒,什么都没留下…
展开
-
反反爬虫(2) :关于CSS字体加密,你了解多少?
CSS 字体反爬对于一个 爬虫er 来说应该是家常便饭了,其实现原理也很简单:@font-face:CSS3 中新功能,允许网页开发者为其网页指定在线字体。原本是用来消除对用户电脑字体的依赖,但也有新作用:反爬虫。......原创 2022-07-09 17:19:48 · 2492 阅读 · 2 评论 -
HTTPX: 青出于蓝,比肩requests的新生代网络请求库
作为新生代的网络请求库,HTTPX 不仅支持 requests 的所有操作,同时支持 异步API 及 HTTP/2。根据官网的描述,总结有如下特点:- 标准的同步接口及异步支持- HTTP/1.1 和 HTTP/2- 直接向 WSGI/ASGI 应用程序发出请求- 严格的超时设置- 全类型注释- 100% 测试覆盖率原创 2021-06-04 13:50:07 · 633 阅读 · 2 评论 -
一剑化三清:使用 Rquests 库模拟 POST请求中常见的数据提交格式
Content-Type 是指 http/https 发送信息至服务器时的内容编码类型,用于 **表明发送数据流的类型**,服务器根据编码类型使用特定的解析方式,获取数据流中的数据。浏览器原生 `<form>` 表单,如果不设置 `enctype` 属性,那么最终就会以 `application/x-www-form-urlencoded` 方式提交数据...原创 2020-12-08 21:45:27 · 1512 阅读 · 16 评论 -
反反爬虫(1) :破解图片/文字验证码(翻过这座山,让世界听到你的故事)
最初,验证码是一张带有字符的图片,用户只需要将图片中的字符输入到文本框中即可,但这种简单的验证码很快就被绕过了。于是人们向图片中加入了一些混淆的元素,如斜线,彩色斑点等。接着出现了一些基于用户操作的验证码,也就是行为验证码。常见的有滑动验证码,拼图验证码和文字点选验证码等。原创 2020-12-01 22:22:40 · 5180 阅读 · 10 评论 -
反反爬虫(0) :还在用 selenium 裸爬吗? 你已经被盯上了!破解WebDriver反爬虫
使用 Selenium 调用 ChromeSriver 来打开网页,还是与正常打开网页有一定的区别的。现在很多网站都加上了对 Selenium 的检测,来防止一些爬虫的恶意爬取。大多数情况下,检测的基本原理是检测当前浏览器窗口下的 `window.navigator` 对象是否包含 `webdriver` 这个属性。原创 2020-11-29 16:37:27 · 29888 阅读 · 26 评论 -
爬虫解析库:lxml 与 xpath 使用小记
通过 requests 模块,我们可以很简单地把网页下载到本地,但是此时获取的网页都是未经处理的,冗余的信息太多,无法进行分析和利用。那么怎么从网页中筛选自己需要的信息呢? 说到信息筛选我们可能会想到正则表达式,不过由于正则表达式过于复杂而且容错率低,网页有稍微的改动就要重写匹配表达式,对于新手来说十分不友好。 那么我们应该使用什么呢?别担心,我们还有很多种解析 HTML页面的方法,例如:**Xpath**原创 2020-11-24 21:12:17 · 10956 阅读 · 5 评论 -
JS基于浏览器的爬虫 - 注入Frame标签爬取二手车数据
一提到爬虫,大家可能会想到 Python,其完善的第三方库,使得一个刚入门的新手也可以写出一套套完整的爬虫程序,与此同时呢,网站的反爬虫措施也愈加强大。此次,我们另辟蹊径,使用 **Javascript** 来实现一种另类的爬虫!原创 2020-11-13 13:51:21 · 9246 阅读 · 1 评论 -
爬虫的基本原理
文章目录爬虫概述获取网页提取信息保存数据自动化程序能抓怎样的数据JavaScript渲染页面我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。如果把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的...原创 2020-03-31 22:52:16 · 3535 阅读 · 1 评论 -
Web 网页基础
文章目录网页的组成HTMLCSSJavaScript网页的结构节点树及节点间的关系选择器当我们用浏览器访问网站时,页面各不相同,那么你有没有想过它为何会呈现成这个样子呢?本文,我们就来讲解网页的基本组成、结构和节点等内容。网页的组成首先,我们来了解网页的基本组成,网页可以分为三大部分:HTML、CSS 和 JavaScript。如果把网页比作一个人的话,HTML 相当于骨架,JavaScr...原创 2020-03-31 22:36:15 · 1841 阅读 · 0 评论 -
爬虫笔记(1):Http基本原理
文章目录URI和URL超文本HTTP和HTTPSHTTP请求过程请求请求方法请求头请求体响应响应状态码响应体此笔记由崔庆才老师的爬虫课整理而成,课程链接URI和URL首先,我们了解一下 URI 和 URL ,URI 的全程为 Uniform Resource Identifier,即统一资源标志符,URL 全称为 Universal Resource Locator,即统一资源定位符。...原创 2020-03-26 22:44:55 · 238 阅读 · 0 评论