![](https://img-blog.csdnimg.cn/754e9c0ab1f7454fb167f45718717f0f.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python3网络爬虫开发实战
文章平均质量分 95
本专栏开始Python爬虫知识的学习。爬虫基础,网络爬虫的集成环境,并有案例实战带领大家迅速掌握爬虫的相关技巧。学习Ajax数据爬取,JavaScript逆向,Android逆向。并带领大家完成多个高级实战项目:Scrapy爬虫项目实战、Scrapy-Redis分布式爬虫项目实战。
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
爱吃饼干的小白鼠
CSDN内容合伙人,新星计划优秀导师。Python领域新星创作者。2022年度博客新星top100入围。安徽省第八届互联网+省赛铜奖获得者。参加的大学生创新创业大赛在国家立项。本人不定期分享自己的心得,本人专注的领域是python 、爬虫、嵌入式硬件、单片机、C/C++。
展开
-
【必读】关于专栏〖Python网络爬虫实战〗转为付费专栏的订阅说明
我们后面会不定期举行优惠购买付费专栏活动,我们最近初步计划于5月1日左右,向广大用户开方,目前,已经有17位小伙伴订阅了本专栏,由于平台看不到哪些人订阅了本专栏。在2023-05-01之后留言截图的无效,因为,转为付费专栏之后,所有订阅本专栏的会自动取消。之前,博主承诺,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,可报销。本专栏从2023-04-03开设,累计至今,已更新17篇文章。在本专栏留下关注本专栏的截图的,购买本专栏可全额报销。在2023-06-01之后在订阅本专栏的,无报销资格。原创 2023-04-20 19:47:08 · 1155 阅读 · 5 评论 -
〖Python网络爬虫实战㊷〗- 极验滑块介绍(四)
我们上一篇和大家介绍了怎么去计算滑块的距离,以及滑块轨迹的模拟,今天,我们就来说说最重要的知识点,就是,3个w是怎么生成的,我们之前说前两个是不可以置空的,3个W的值思路都差不多。极验后面会更新,如果代码失效了,在评论区评论,我也会及时更新。我们今天花了很多内容去解释了三个w的生成,想要源码的可以评论区留言,我们看看最后的效果吧。我还去测试了某平台手机发送验证码的滑块,这个网站只要最后一个w就可以,等大家学完这个官网的逆向,其他js基本上简单修改就可以使用了。严正声明:本文仅供交流学习,勿用于非法用途。原创 2023-12-11 15:31:23 · 3437 阅读 · 38 评论 -
〖Python网络爬虫实战㊹〗- JavaScript Hook 的用法
最近更新在 JavaScript 逆向的时候,我们经常需要追踪某些方法的堆栈调用情况。但在很多情况下,一些 JavaScript 的变量或者方法名经过混淆之后是非常难以捕捉的。仅仅凭借这些技巧还不足以应对多数 JavaScript 逆向。本节我们来介绍一个比较常用的 JavaScript 逆向技巧 —— Hook 技术。原创 2023-12-25 19:14:26 · 2960 阅读 · 6 评论 -
〖Python网络爬虫实战㊸〗- 极验滑块介绍(五)
我们前几篇文章,和大家详细介绍了一下极验滑块逆向的过程,最近,有粉丝让我来出个实战案例,由于某些特殊原因,本文的源码就不展示了,接下来,我以这个👉👉👉网站👈👈👈为例,和大家介绍。至此,我们总共花了5篇文章来介绍了极验滑块3,现在,还有极验4,大家感兴趣的可以自己去试试,最后,这里再强调一下,本文仅供交流学习,勿用于非法用途。原创 2023-12-18 15:16:48 · 3551 阅读 · 6 评论 -
〖Python网络爬虫实战㊶〗- 极验滑块介绍(三)
我们上一篇和大家介绍了怎么取处理图片的还原,今天,我们来说说怎么去计算滑块移动的距离,我们可以通过open-cv来识别,或者其他识别库来识别,我们还可以对比两个图片的像素点。这些都可以直接用别人写好的代码,我这里就不过多赘述。我们今天主要说了关于滑块距离的计算,还有滑块距离的计算,我们下一篇,重点来逆向那个w的值,我在这里澄清之前说前两个w的值可以置空,但是,我这里试了一下,是不可以置空的,我看了大部分教学视频都说可以置空,是不对的,至少,我把前两个w的值补全之后,就不会报错。原创 2023-12-08 10:23:26 · 1682 阅读 · 6 评论 -
〖Python网络爬虫实战㊵〗- 极验滑块介绍(二)
我们上一篇和大家介绍了什么是极验滑块验证码,已经整个滑块验证的思路,接下来,我会带大家一步一步来实现,原本我是打算一篇文章结束的,但是,后来发现内容太多了,所以,我就分几次发。我先来说说我们接下来要做什么?第一步,就是滑块图片要还原,拿到正常的图片,我们才能正常的去走下一步。第二步,我们还要去计算滑块移动的距离,我们可以用到很多方法,比如,cv2等一些识别库,或者最简单的对比两个图片的像素点。我们下篇会讲到。第三步,还原几个关键参数,w,l,u,h,o.原创 2023-12-04 13:43:38 · 1979 阅读 · 0 评论 -
〖Python网络爬虫实战㊴〗- 极验滑块介绍(一)
我们对这个看到不陌生,现在,大多数平台都是用的是这个平台的验证码,我们今天来学习一下,极验滑块验证码的逆向,其他的都差不多。我们了解到这个平台提供了许多验证的方式。现在大多数还是滑块比较多,滑块验证码是一种常见的验证方式,其主要思路为用户通过拖动滑块来完成验证。具体流程如下:首先,用户需要进行滑块验证码的操作,网站会向用户展示一张图片,图片上通常会有一些随机的文字和背景干扰。用户需要通过鼠标拖动滑块,将其移动到指定位置上,通常是将滑块拖动到图片的相应位置上来完成验证。原创 2023-11-27 17:22:01 · 2577 阅读 · 1 评论 -
〖Python网络爬虫实战㊳〗- JavaScript 逆向实战(二)
今天讲了一个案例,主要是一个比较泛的关键字的时候,以犀牛数据为例,如何去定位。希望大家可以学到东西,不懂的可以在评论区留言。原创 2023-11-10 22:21:29 · 1087 阅读 · 1 评论 -
〖Python网络爬虫实战①〗- HTTP原理
在写爬虫之前,我们还需要了解一些基础知识,如HTTP原理、网页的基础知识、爬虫的基本原理、Cookies的基本原理等。本文中,我们就对这些基础知识做一个简单的总结。原创 2023-04-03 20:01:49 · 2261 阅读 · 31 评论 -
〖Python网络爬虫实战②〗- Web网页基础
HTML定义了网页的内容和结构,CSS描述了网页的样式,JavaScript定义了网页的行为。原创 2023-04-03 20:57:54 · 758 阅读 · 9 评论 -
〖Python网络爬虫实战③〗- 爬虫的基本原理
简单来说,爬虫就是获取网页并提取和保存信息的自动化程序,下面概要介绍一下。这里介绍了爬虫的一些基本原理,这可以帮助我们在后面编写爬虫时更加得心应手。原创 2023-04-04 20:59:14 · 917 阅读 · 3 评论 -
〖Python网络爬虫实战④〗- 代理的基本原理
本文就讲代理的基本原理,以及,我们为什么要配置代理,它的作用是什么。这对我们后面进行反爬有很大的作用。原创 2023-04-04 21:42:37 · 1321 阅读 · 5 评论 -
〖Python网络爬虫实战⑤〗- Session和Cookie介绍
上一节,我们学习了代理的基本原理,以及,我们为什么要配置代理,它的作用是什么。本文,我们了解一下。什么是Session和Cookie,以及他们的作用是什么。本文介绍了Session和Cookie的相关知识,这对我们后面学习网络爬虫有很大的作用。原创 2023-04-05 17:03:41 · 1856 阅读 · 33 评论 -
〖Python网络爬虫实战⑥〗- 多线程和多进程
本文我们来说说,什么是多线程和多进程,以及他们的区别是什么。本节介绍了多线程,多进程的基本知识,如果我们可以把多线程,多进程运用到爬虫中的话,爬虫的效率会大幅度提高。原创 2023-04-06 23:04:55 · 778 阅读 · 7 评论 -
〖Python网络爬虫实战⑦〗- requests的使用(一)
requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。本文我们说了requests的简单用法,知道了如何发送请求,下一篇我们更深层次的来学习requests。我们看看高级一点的操作,比如讲文件上传,cookies设置,代理设置之类的。原创 2023-04-07 23:09:40 · 323 阅读 · 9 评论 -
〖Python网络爬虫实战⑧〗- requests的使用(二)
今天我们更深层次的来学习requests。我们看看高级一点的操作,比如讲文件上传,cookies设置,代理设置之类的。下一篇,我们就来说说正则表达式的相关知识点。原创 2023-04-07 23:40:58 · 320 阅读 · 3 评论 -
〖Python网络爬虫实战⑨〗- 正则表达式基本原理
我们可以从HTML代码提取我们想要的数据。我们知道正则表达式就是其中一个有效的办法。通过本文我们基本了解了其中的原理。后面我们将通过两个具体案例来加深对正则表达式的理解。原创 2023-04-08 19:21:15 · 1759 阅读 · 11 评论 -
〖Python网络爬虫实战⑩〗- 正则表达式实战(一)
今天,我们先通过一个简单的小案例,来学习正则表达式是如何使用的,下一篇,我们继续讲一个案例,加深大家对正则表达式的理解。原创 2023-04-09 15:40:24 · 509 阅读 · 0 评论 -
〖Python网络爬虫实战⑪〗- 正则表达式实战(二)
大家就会发现我们就把每个链接地址获取了下来。正则表达式是不是很神奇。大家可以尝试获取其他的数据。我们获取到了图片地址,我们还可以保存下来,在后面的教学过程中,会教大家如何保存下来,这里重点是练习正则表达式。原创 2023-04-09 17:34:35 · 685 阅读 · 0 评论 -
〖Python网络爬虫实战⑫〗- XPATH语法介绍
前面我们实现了一个最基本的爬虫,但提取页面信息时使用的是正则表达式,过程比较烦琐,且万一有地方写错了,可能会导致匹配失败、所以使用正则表达式提取页面信息多少还是有些不方便.对于网页的节点来说、可以定义id,class或其他属性,而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么、在解析页面时,利用XPath或CSS选择器提取某个节点,然后调用相应方法获取该节点的正文内容或者属性,不就可以提取我们想要的任意信息了吗?原创 2023-04-10 22:21:37 · 776 阅读 · 7 评论 -
〖Python网络爬虫实战⑬〗- XPATH实战案例
我们通过学习了简单的Xpath操作,以及在另外一篇xpath的实战案例下,本文,继续分享一个关于xpath的实战案例。xpath最大的难点就是如何写下path后面的语法,我们要找到对应的节点,就可以了。原创 2023-04-12 18:18:42 · 1034 阅读 · 24 评论 -
〖Python网络爬虫实战⑭〗- BeautifulSoup详讲
BeautifulSoup 是一个用于解析和生成 HTML,XML 和其他网页的 Python 库。它可以用于爬取,解析和提取网页内容,并能够通过转换器实现惯用的文档导航、查找、修改文档的方式。BeautifulSoup是一个用Python编写的库,用于解析HTML和XML文档,并提取其中的数据。它是一个简单易用的工具,可以提高从HTML和XML文档中提取数据的效率。BeautifulSoup使用正则表达式和re模块来解析HTML和XML文档。它支持各种类型的标签,例如原创 2023-04-14 22:11:42 · 1231 阅读 · 18 评论 -
〖Python网络爬虫实战⑮〗- pyquery的使用
PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。原创 2023-04-16 21:14:08 · 1620 阅读 · 49 评论 -
〖Python网络爬虫实战⑯〗- 网页解析利器parsel
Parsel是一个用于解析JSON数据的Python库。它提供了一个简单易用的API,可以轻松地从JSON文件或字符串中解析数据。可以对 HTML 和 XML 进行解析,并支持使用 XPath 和 CSS Selector 对内容进行提取和修改,同时它还融合了正则表达式提取的功能。功能灵活而又强大。parsel 是一个融合了 XPath、CSS Selector 和正则表达式的提取库,功能强大又灵活,建议好好学习一下。原创 2023-04-17 23:18:44 · 1094 阅读 · 6 评论 -
〖Python网络爬虫实战⑰〗- 网页解析利器parsel实战
在parsel实战中,我完成了一个使用parsel库的选择器来选择 特定元素的内容。在这个实战中,我使用了xpath和css方法来指定选择的元素的位置和样式。Parsel是一个用于解析JSON数据的Python库。原创 2023-04-19 23:42:01 · 1275 阅读 · 35 评论 -
〖Python网络爬虫实战⑱〗- 数据存储之TXT纯文本
上面便是利用 Python 将我们获取到的数据保存为 TXT 文件的方法,这种方法简单易用,操作高效,是一种最基本的保存数据的方法。保存TXT文件是非常简单的。下一篇文章,我们准备介绍关于CSV文件的保存,如果,大家想多出一点CSV实战的文章,在评论区留言,我就多更一点,如果没有的话,我就一篇文章带过。原创 2023-04-23 21:55:52 · 1134 阅读 · 43 评论 -
〖Python网络爬虫实战⑲〗- 数据存储之CSV文件
我们了解了 CSV 文件的写入和读取方式。这也是一种常用的数据存储方式,需要熟练掌握。但是,CSV文件的使用也存在一些限制和局限性。例如,CSV文件只能存储纯文本数据,不能存储二进制数据或者复杂的数据结构。此外,CSV文件的格式比较固定,不能自定义格式或者添加数据分隔符等。为了解决这些问题,我们需要寻找更好的数据存储方式。我们一般会使用“JSON”的数据存储格式,它可以存储多种类型的数据,并且支持自定义格式和数据分隔符等。后面我们也会讲到JSON数据的保存。原创 2023-04-25 23:21:31 · 1297 阅读 · 25 评论 -
〖Python网络爬虫实战⑳〗- 数据存储之CSV操作实战
我们在学完这个案例之后,大家就会明白这个其实很简单,其他的只需要模仿这个来写就可以了。CSV文件实战需要考虑多个方面,包括选择合适的文件格式、设置正确的文件头、使用有效的编码方式等。我们这里就不过多介绍,我们还是数据库用到的机会比较大。原创 2023-04-28 22:27:09 · 912 阅读 · 16 评论 -
〖Python网络爬虫实战㉑〗- 数据存储之JSON操作
loadloadsdump和dumps,1、json.loads将一个Python数据结构(字符串)转换为JSON格式数据2. json.dumps将一个JSON编码的字符串转换回一个Python数据结构,即字符串3. json.dump() 和 json.load() 来编码和解码JSON数据,用于处理文件我们可以这样记忆:按照如下记忆:文件:dump、load字符串:dumps、loads编码:dump、dumps解码:load、loads。原创 2023-04-29 22:52:15 · 1208 阅读 · 19 评论 -
〖Python网络爬虫实战㉒〗- 数据存储之数据库详解
本节讲解了使用 MYSQL和 MongoDB 两种数据库,后面我们会在实战案例中应用这些操作进行数据存储。原创 2023-05-04 21:52:11 · 1134 阅读 · 13 评论 -
〖Python网络爬虫实战㉓〗- Ajax数据爬取之什么是Ajax
Ajax,全称为 Asynchronous JavaScript and XML,即异步的 JavaScript 和 XML。它不是一门编程语言,而是利用 JavaScript 在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页,如果想更新其内容,那么必须刷新整个页面,但有了 Ajax,便可以在页面不被全部刷新的情况下更新其内容。原创 2023-05-07 21:19:17 · 612 阅读 · 11 评论 -
〖Python网络爬虫实战㉔〗- Ajax数据爬取之Ajax 分析案例
Ajax(Asynchronous JavaScript and XML)是一种用于创建异步通信和动态交互的技术。它允许在不刷新整个页面的情况下,向服务器发送HTTP请求并获取响应,从而使Web应用程序更加流畅和响应灵活。在本例中,我们将分析一个使用Ajax技术实现分析的案例。在下一节中,我们用一个正式的实例来实现一下 Ajax 数据的爬取。原创 2023-05-12 22:37:58 · 779 阅读 · 24 评论 -
〖Python网络爬虫实战㉕〗- Ajax数据爬取之Ajax 案例实战
本节中我们通过一个案例来体会了 Ajax 分析和爬取的基本流程,希望大家通过本节能够更加熟悉 Ajax 的分析和爬取实现。另外,我们也观察到,由于 Ajax 接口大部分返回的是 JSON 数据,所以在一定程度上可以避免一些数据提取的工作,这也在一定程度上减轻了工作量。原创 2023-05-14 23:24:23 · 1842 阅读 · 36 评论 -
〖Python网络爬虫实战㉖〗- Selenium库和ChromeDriver驱动的安装
今天,主要和大家讲解了如何正确安装好Chrome 浏览器并配置好ChromeDriver。另外,还教大家如何正确安装好 Python 的 Selenium 库。原创 2023-05-19 23:17:49 · 518 阅读 · 4 评论 -
〖Python网络爬虫实战㉗〗- Selenium案例实战(一)
后面,我还会将两个这样的案例,我们通过实战来了解selenium的好处。这里,我推荐大家使用新版本的selenium,旧版本的不是说不能用,看个人习惯吧。原创 2023-05-20 22:33:20 · 944 阅读 · 0 评论 -
〖Python网络爬虫实战㉘〗- Selenium案例实战(二)
浏览器指纹是指浏览器的各种信息,当我们访问其他网站时,即使是在匿名的模式下,这些信息也可以帮助网站识别我们的身份。人手上的指纹之所以具有唯一性,是因为每个指纹具有独特的纹路、这个纹路由凹凸的皮肤所形成,具有独一无二的特征。浏览器指纹和人手手指上的指纹同理,都具有独一无二的特性。网站通过获取浏览器具有辨识度的信息,进行一些计算得出一个值,那么这个值就是浏览器指纹。手动打开浏览器指纹情况正常情况手动打开浏览器。原创 2023-05-20 23:02:45 · 778 阅读 · 2 评论 -
〖Python网络爬虫实战㉙〗- Selenium案例实战(三)
我们前面和大家讲解了三个实战,后面,我们将会具体的分析selenium的用法,以及在实战中常用的函数介绍。原创 2023-05-23 22:06:26 · 757 阅读 · 17 评论 -
〖Python网络爬虫实战㉚〗- Selenium节点
我们在上一节,为大家演示了selenium的实战,今天,我们将会带大家继续实现selenium节点以及节点交互。原创 2023-07-03 21:49:30 · 1499 阅读 · 5 评论 -
〖Python网络爬虫实战㉛〗- Selenium 的其他操作使用
前面,我们学习了Selenium的节点操作,也出了几期关于实战的博客,今天,我们说说Selenium的其他部分操作。Selenium还有很多操作,像设置无头模式等操作。很多网站都加上了对 Selenium 的检测,来防止一些爬虫的恶意爬取。我们还可以反屏蔽,这里就不一一赘述了。原创 2023-07-14 22:47:51 · 498 阅读 · 15 评论 -
〖Python网络爬虫实战㉜〗- 协程基本原理
我们今天讲解了Python 中协程的基本原理和用法,使用了异步请求之后,我们几乎可以在相同的时间内实现成百上千倍次的网络请求,把这个运用在爬虫中,速度提升可谓是非常可观了。原创 2023-07-15 21:53:44 · 1823 阅读 · 5 评论