python爬虫实战教程
文章平均质量分 88
须知少年凌云志,曾许人间第一流。
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
天天501
须知少年凌云志,曾许人间第一流
展开
-
01.爬虫基础
爬虫的实战性要求很强。爬虫经常需要爬取商业网站或政府网站的内容,而这些网站随时可能进行更新,另外网络原因和网站反爬虫机制也会对爬虫代码演示造成干扰。原创 2023-10-04 21:17:11 · 934 阅读 · 0 评论 -
用python爬视频,超详细,让下载成为可能(某站)
用python爬某站,手把手教学,还不快进!!原创 2022-05-17 18:38:54 · 13949 阅读 · 14 评论 -
简单逆向之响应数据加密
f12抓包发现数据加密了,既然数据加密了,那肯定会在客户端解密,我们可以尝试搜索decrypt,果然一搜就发现了。经典的AES加密了。我们可以打上断点调试一下,看一下密钥。那们接下来就简单了,要么用js实现,要么用python实现加密。这里要注意一下,有时候aes的key或者iv会变化的,而本文的网站是不会变化的,大家可以多尝试几下,确定是否为变化。本文章中所有内容仅供学习交流,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!原创 2023-10-18 21:23:18 · 299 阅读 · 2 评论 -
在pycharm中配置nodejs
在进行 JavaScript 解密时,需要一个JavaScript代码调试工具,这里我们直接在现成的专业版里面安装node插件,就可以使用pycharm 直接调试js代码了。最后在cmd命令窗口下,输入 node -v 即可查看node的安装版本,如果输入没有效果,则是因为没有。 如果想用python代码直接调用js的代码,则需要搭建js环境,并安装相关的库直接调用JS代码。调用js方法,obj表示编译好的js对象,call方法内部传js中需要调用的函数,和调用函数所需参数。原创 2023-10-11 09:15:00 · 944 阅读 · 0 评论 -
14.scrapy进阶
网络爬虫是指在互联网上自动爬取网站内容信息的程序,也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域,个人用户或企业也可以利用爬虫收集对自身有价值的数据。请求数据解析数据保存数据Engine。引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。Item。项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成该Item对象。Scheduler。调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求的时候将请求提供给引擎。Downloader。原创 2023-10-11 09:15:00 · 61 阅读 · 7 评论 -
13.scrapy入门
网络爬虫是指在互联网上自动爬取网站内容信息的程序,也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域,个人用户或企业也可以利用爬虫收集对自身有价值的数据。请求数据解析数据保存数据Engine。引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。Item。项目,它定义了爬取结果的数据结构,爬取的数据会被赋值成该Item对象。Scheduler。调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求的时候将请求提供给引擎。Downloader。原创 2023-10-10 09:15:00 · 45 阅读 · 0 评论 -
12.验证码以及付费代理
网络上有大量免费且公开的代理可以供我们使用,但这些单利并不能保证都可以使用,因为同样的代理可能被其他人拿来爬虫使用而遭到封禁,因此,在真正使用之前,我们需要对这些免费代理进行筛选,剔除那些不能使用的。保留下可以用的,来构建一个代理池,供我们爬虫使用。 前面我们讲了图片有两种形式,链接形式的图片我们通过requests发送请求就可以拿到图片的二进制数据,保存下来就可以用看图软件查看。 这样的形式存在于页面当中的图片,如果一旦页面图片很多的话,就意味着需要发送很多次网络请求,去请求图片数据。原创 2023-10-10 09:15:00 · 938 阅读 · 6 评论 -
11.多进程与多线程
什么叫“多任务”呢?简单地说,就是操作系统可以同时运行多个任务。打个比方,你一边在用浏览器上网,一边在听MP3,一边在用Word赶作业,这就是多任务,至少同时v有3个任务正在运行。还有很多任务悄悄地在后台同时运行着,只是桌面上没有显示而已。在了解多任务具体实现方式之前,我们先来了解并发和并行的概念:并发:在一段时间内交替去执行多个任务。原创 2023-10-09 10:53:37 · 91 阅读 · 2 评论 -
10.selenium进阶
嵌套页面就是在一个HTML页面中嵌套了子页面,常见的网页嵌套的形式在HTML中对应的是标签。嵌套页面图解:在我们使用selenium操作此类网页的时候一定需要注意你所操作的页面是不是在嵌套页面。原创 2023-10-09 10:51:39 · 945 阅读 · 1 评论 -
09.selenium入门
Selenium采集数据 Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),[Mozilla Chrome](https://baike.baidu.com/item/Mozilla Chrome/3504923),Safari,Google Chrome,Opera等。原创 2023-10-08 12:23:18 · 380 阅读 · 2 评论 -
08.requests高级用法
cookie在http请求和http响应的头信息中,cookie是消息头的一种很重要的属性。原创 2023-10-08 12:20:58 · 63 阅读 · 2 评论 -
07.数据持久化之文件操作
其中 fieldnames 指定字典的 key 值,如果 reader 里没有指定那么默认第一行的元素,在 writer 里一定要指定这个。JSON跟Python中的字典其实是一样一样的,事实上JSON的数据类型和Python的数据类型是很容易找到对应关系的,如下面两张表所示。1、openpyxl 读写单元格时,单元格的坐标位置起始值是(1,1),即下标最小值为1,否则报错!我们把需要写入的数据放到列表中,写文件时会把列表中的元素写入到csv文件中。这将使单元格返回A4,如果尚未存在,则创建一个单元格。原创 2023-10-07 15:20:21 · 117 阅读 · 0 评论 -
06.数据解析-xpath
XPath(XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。W3School官方文档:http://www.w3school.com.cn/xpath/index.asp。原创 2023-10-07 15:18:51 · 73 阅读 · 0 评论 -
05.数据解析之正则表达式
正则表达式模式中使用到通配字,那它在从左到右的顺序求值时,会尽量“抓取”满足匹配最长字符串,在我们上面的例子里面,“.+”会从字符串的启始处抓取满足模式的最长字符,其中包括我们想得到的第一个整型字段的中的大部分,“\d+”只需一位字符就可以匹配,所以它匹配了数字“4”,而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。第一个参数为对应的正则表达式,第二个参数为要替换成的字符串,第三个参数为源字符串,第四个参数为可选项,代表最多替换的次数,如果忽略不写,则会将符合模式的结果全部替换。原创 2023-10-06 14:15:26 · 267 阅读 · 0 评论 -
04.数据解析之css选择器
能看懂的就是结构化的数据,看不懂的,就是非结构化数据。原创 2023-10-06 14:14:01 · 84 阅读 · 0 评论 -
03.requests入门
前面的课程中我们了解了requests模块是一个网络请求模块,可以帮助我们模拟成客户端去请求服务器的数据。我们今天就是主要针对这个模块进行学习。 我们可以在浏览器中抓取到这些请求与响应的内容,那么我们可以“伪造”请求吗?也就是不再通过浏览器发送这些数据,而是通过Python来模拟浏览器发送请求。答案是可行的。而Requests模块就可以完成这种功能。Requests 模块就是 Python 实现的简单易用的HTTP库还有其他库吗?原创 2023-10-05 11:02:44 · 94 阅读 · 0 评论 -
02.请求与响应
HTTP通信由两部分组成:客户端请求消息与服务器响应消息当我们在浏览器输入URL https://www.baidu.com 的时候,浏览器发送一个Request请求去获取 https://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。原创 2023-10-05 10:58:07 · 86 阅读 · 0 评论 -
某道翻译逆向
w方法中又调用了A方法,并传入了一个值,A方法用md5加密,那们接下来就简单了,构造一个参数传进去就行,这里要注意一下,不要把参数搞错了,t是固定值,e为时间戳,这跟开始的参数是不同的。老规矩,f12打开开发者抓包,接着在输入框里面输入‘加油’,‘努力’,然后找到这俩个包,发现数据加密了,对比查询参数,sign和mysticTime不同,mysticTime是一串数字,估计是时间戳,重点在sign参数身上,然后还有一个响应数据的解密。在 Node.js 中,crypto 模块是内置的,无需额外安装。原创 2023-10-04 00:08:48 · 847 阅读 · 0 评论 -
某度sign参数逆向
经过我们几次抓包,测试,发现网址后面带有from=zh&to=en就是我们想要的包,点击网址,发现里面有几个参数,其中token是不改变的,ts明显像时间戳,sign的值是变化,我们可以多输入几次中文,发现当输入相同的中文,sign的值是一样的。那们接下来我们的目标锁定sign。断住之后,很明显sign的值是有b(e)生成的,其中参数e就是我们输入的中文,我们复制b(e),在控制台打印输出,发现就是我们想要的值。进入函数b(e)里面,里面很简单就是加密的地方,那们接下来就简单了,直接扣js代码,缺啥补啥。原创 2023-09-23 19:16:32 · 1018 阅读 · 0 评论 -
简单js逆向AES加密
我们查看网页,发现网页是动态加载的,请求参数没有加密,不过响应的数据都是密文,那们我们的目标就很明显了,将密文解密,得到我们真正想要的数据。还是老方法,将返回密文数据的网址目录复制下来,到源代码面板,点击XHR,将网络目录复制进去,然后刷新页面,这里就不作过多的解释了,详细请看。这里教大家一个简单找加密地方的小技巧,既然服务器返回加密的数据,那网页肯定要解密了,我们可以在全局搜索decrypt,看看能不能找到。经过调试发现第一个网址没有找到加密逻辑,没关系,反正有这么多加密的网址,我们接着换一个。原创 2023-08-26 17:41:19 · 1018 阅读 · 0 评论 -
js逆向之AES加密
后面发现点进详细页的话,发现数据也加密码了,不过是同样的加密了,连密钥都没有换…首先我们先将目标网址的路径复制下来,然后再源代码界面,点击XHR提取断点,再点击加号,将路径粘贴进去后回车键,然后刷新页面,就会发现成功断点。点击Fetch\XHR,在清除所有数据后,刷新页面,发现返回了几个数据包,发现返回的json中的data加密了,由于不确定是哪个数据包是我们想要的,我们可以在页面底部点击第二页,多查看几页。进去之后,我们先找一下data,因为加密的就是data,找到之后我们打上断点。打上断点,刷新页面。原创 2023-08-25 17:38:37 · 901 阅读 · 0 评论 -
tkinter+爬虫+pygame实现音乐播放器
发现不是我们要找的id,那我们在找一下,发现在类名为ply的span标签的data-res-id属性值就是我们要找的,那么我们只需要将网页爬下来,用parsel解析,然后一个一个提取出来就行了,直接开干。发现提取出来的数据不对,是一些代码,明明是用css选择器提取的,在网页中也能提取啊,怎们数据不对啊。下面红色框框中的网址才是我们需要的,那就简单了,直接开干。本文将涉及爬虫(数据的获取),pygame(音乐播放器),tkinter(界面显示),将他们汇聚到一起制造一个音乐播放器,欢迎大家的订阅。原创 2023-08-13 15:42:53 · 1162 阅读 · 0 评论 -
某城二手车字体反爬
关关难过关关过,步步难行步步行。作为一个普普通通,稍微会点爬虫的初级学者,初学时不知天高地厚,网络之大,哪不能去,结果一遇到字体反爬,歇菜了(欲哭无泪)。所以本文将会讲解字体反爬实战,欢迎大家的订阅。原创 2023-08-09 06:00:00 · 802 阅读 · 0 评论 -
字体反爬之实习seng
本文讲解字体反爬的实战案例,需要具备一定的爬虫基础,欢迎各位小伙伴的订阅!!!原创 2023-08-07 22:50:16 · 1300 阅读 · 0 评论 -
用python爬荣耀皮肤图片(爬虫最基础题,python爬虫教程,超详细+完整代码)
python超基础,简单用requests模块爬荣耀皮肤图片,超详细,文章后附有完整代码。原创 2022-05-20 22:11:53 · 232 阅读 · 0 评论 -
爬虫基础:python实现爬取无水印某瓜视频(附有完整代码,超详细)
爬虫基础:爬某瓜视频,超详细,完整代码!!原创 2022-05-19 08:25:12 · 2508 阅读 · 1 评论 -
python爬取某东商品的评论 超详细 附有完整代码(下)
适合零基础的人群,爬虫入门练习,python爬取某东的评论(文章后有完整代码,超详细,保姆级教学原创 2022-05-17 19:52:02 · 5918 阅读 · 6 评论 -
python+selenium爬取某东,文章后有完整代码(上)
适合零基础,爬虫入门练习,十分详细的写了用selenium怎样爬取某东商品,一步一个脚印,保姆级教学!!!原创 2022-05-17 15:14:45 · 271 阅读 · 1 评论