![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
7RPH
学网安的菜狗
展开
-
Python爬虫:网易云音乐评论爬取
目录0x00 写在前面0x01 iframe处理0x02 获取歌单0x03 获取歌曲0x04 获取评论0x00 写在前面这次的网易云音乐评论爬取跟ctfhub登录+签到一样,算是一次实战吧,也算是把这几天学习到的给真正拿来运用了,在这期间呢也确实又学到了新的知识,也对之前学的selenium的知识做了巩固。0x01 iframe处理先来看网页源码这里采用了iframe来构造页面,当我们单纯显示网站源码时,iframe里的东西我们时看不到的,所以我这里采用了selenium的switch_to.f原创 2020-08-30 12:28:51 · 4259 阅读 · 5 评论 -
Python爬虫:github自动登录,ctfhub自动签到(带验证码)
目录0x00 写在前面0x01 GitHub的登录0x02 CTFHub的登录0x03 CTFHub自动登录,签到的完整代码0x00 写在前面这次是记录学习过程中关于自动登录的案例,在这几天的学习中发现,很多情况下,我们都只有在登录的情况下才能看到我们想要的数据,所以自动登录是爬虫必不可少的一环0x01 GitHub的登录github登录网址:https://github.com/logingithub的登录不需要验证码验证,也就不需要定位,直接post就行了,相对简单,就试了试不使用seleni原创 2020-08-28 22:08:30 · 1150 阅读 · 3 评论 -
Python爬虫:验证码识别(图片链接和图片base64字符串)
目录0x00 写在前面0x01 验证码src里有图片的base64加密字符串0x02 验证码src中是自动刷新的图片链接0x03 总结0x00 写在前面爬取数据,自动化的验证码验证是绕不开的,当然,验证码的自动识别其实都是调用其他api,在这里把这几天学习遇到过的验证码识别总结一下0x01 验证码src里有图片的base64加密字符串话不多说先上图如图,这里的src获得的是经base64加密后的图片字符串,如下src="data:image/png;base64,iVBORw0KGgoAAAA原创 2020-08-28 17:00:10 · 4609 阅读 · 0 评论 -
Python爬虫:笔趣阁小说搜索和爬取
目录0x00 写在前面0x01 搜索页面0x02 章节获取0x03 章节内容获取0x04 完整代码0x00 写在前面最近开始学习Python的爬虫,就试着写了写笔趣阁小说的爬虫,由于是初学,所以正则,bs4,xpath都用了用,下面是正文0x01 搜索页面首先是对搜索页面的分析,网址如下:http://www.xbiquge.la/modules/article/waps.php先对查找方式进行测试f12查看header是post方法,进一步查看数据发现数据名是searchkey,内原创 2020-08-27 22:18:21 · 3614 阅读 · 5 评论