爬虫
文章平均质量分 71
南岸青栀*
渗透测试部分因为太铭感,所以不会在这边发了。会分享一些安全类的文章
展开
-
python爬虫最全总结
python爬虫–总结文章目录python爬虫--总结requests模块中中的content和text的区别IO操作写文件open()方法with open() as 方法读文件with open() as 方法创建目录JSON模块dump函数:dumps函数loads函数:get请求和post请求get请求post请求练习:re模块标题requests模块中中的content和text的区别content用来返回二进制数据,适用于保存二进制数据,例如:图片,视频,文件等text适用于显示文本数原创 2021-08-08 13:30:49 · 1198 阅读 · 2 评论 -
python爬虫--类级别写法
类级别写法爬取糗事百科段子前文回顾python爬虫–爬取9某1看剧网电视剧python爬虫–爬取网易云音乐评论python爬虫–scrapy(再探)python爬虫–scrapy(初识)python爬虫–selenium模块文章目录前文回顾python爬虫--爬取9某1看剧网电视剧python爬虫--爬取网易云音乐评论python爬虫--scrapy(再探)python爬虫--scrapy(初识)python爬虫--selenium模块思路:代码效果图思路:模块化需要的模块有发送请原创 2021-07-20 23:27:12 · 415 阅读 · 2 评论 -
python爬虫--爬取9某1看剧网电视剧
python爬虫–爬取91看剧网电视剧https://www.91kanju.com/vod-play/54812-1-2.htmlimport requestsimport re## obj = re.compile(r"url: '(?P<url>.*?)',",re.S)# url = 'https://www.91kanju.com/vod-play/54812-1-2.html'#headers = { 'User-Agent': 'Mozilla/原创 2021-05-08 20:41:39 · 7077 阅读 · 6 评论 -
python爬虫--scrapy(再探)
python爬虫–scrapy(再探)基于scrapy的全站数据爬取—需求:爬取校花网中全部图片的名称http://www.521609.com/meinvxiaohua/实现方式:将所有页面的ur L添加到start_ urls列表(不推荐)自行手动进行请求发送(推荐)手动请求发送: yield scrapy. Request (url, callback) : callback专用做于数据解析创建scrapy以及基于管道的持久化存储:请点击此处查看import scra原创 2021-04-05 13:48:34 · 3658 阅读 · 9 评论 -
正则表达式(python3)
文章目录正则表达式(python3)match方法search方法常用匹配符泽一匹配符(|)和列表重复数量限定符原生字符串边界字符分组其他常用函数sub、subn函数compile函数findall函数split函数正则表达式(python3)正则表达式是对字符操作的一种逻辑公式,就是用事先定义好的一些特定字符以及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑(可以用来截取或替换操作)作用1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配")。2原创 2021-03-10 17:03:29 · 2850 阅读 · 12 评论 -
python爬虫--scrapy(初识)
文章目录python爬虫--scrapy(初识)scrapy环境安装scrapy基本使用糗事百科数据解析python爬虫–scrapy(初识)scrapy环境安装因为我是同时安装anaconda和python3.7,所以在使用pip的时候总是会显示anaconda中已经安装(众所周知)。PS:也有可能直接使用conda install scrapy就可以了(我没试)出现这张图后,就说明已经安装完成原创 2021-03-28 17:15:26 · 1351 阅读 · 1 评论 -
python爬虫--selenium模块
文章目录selenium模块selenium基本概念基本使用代码基于浏览器自动化的操作代码代码selenium处理iframe:代码selenium模拟登陆QQ空间代码无头浏览器和规避检测代码selenium模块selenium基本概念selenium优势便捷的获取网站中动态加载的数据便捷实现模拟登陆selenium使用流程:1.环境安装:pip install selenium2.下载一个浏览器的驱动程序(谷歌浏览器)3.实例化一个浏览器对象基本使用代码from seleniu原创 2021-03-27 19:20:41 · 4439 阅读 · 21 评论 -
python爬虫--异步
python爬虫–异步基本概念目的:在爬虫中使用异步实现高性能的数据爬取操作。异步爬虫的方式:多线程,多进程(不建议) :好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。弊端:无法无限制的开启多线程或者多进程。线程池、 进程池(适当) :好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。弊端:池中线程或进程的数量是有上限。线程池的基本使用代码粘贴# import time# #单线程串行方式执行#原创 2021-03-25 20:04:31 · 756 阅读 · 5 评论 -
python爬虫--协程(初识)
python爬虫–协程基本知识event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。coroutine:携程对象,我们可以将携程对象注册到事件循环中,它会被时间循环调用。我们可以使用async关键字来定义一个方法,这个方法在调用时不会被立即执行,而是返回一个协程对象。task:任务,它是对协程对象的进一步封装, 包含了任务的各个状态。future:代表将来执行或还没有执行的任务,实际上和task 没有本质区别。as原创 2021-03-25 20:02:16 · 954 阅读 · 3 评论 -
python爬虫--验证码、cookie
文章目录python爬虫--验证码、cookie、代理基本知识古诗文网验证码识别代码模拟古诗文网登陆python爬虫–验证码、cookie、代理基本知识模拟登陆:爬取基于某些用户的用户信息点击登陆按钮之后发起post请求post请求中会携带登陆之前录入的相关登陆信息(用户名,密码,验证码。。。)Cookiehttp/https协议特性:无状态。没有请求到对应页码数据的原因:发起第二次基于个人主页的页面请求的时候,服务器端并不知到本次请求是基于登陆状态下的请求。Cookie:用来让服原创 2021-03-23 16:55:18 · 1312 阅读 · 2 评论 -
python爬虫-数据解析(xpath)
文章目录xpath基本概念xpath解析原理环境安装如何实例化一个etree对象:xpath(‘xpath表达式’)xpath爬取58二手房实例爬取网址完整代码效果图xpath图片解析下载实例爬取网址完整代码效果图xpath爬取全国城市名称实例爬取网址完整代码效果图xpath爬取简历模板实例爬取网址完整代码效果图xpath基本概念xpath解析:最常用且最便捷高效的一种解析方式。通用性强。xpath解析原理1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中2.调用et原创 2021-03-22 00:29:04 · 17014 阅读 · 18 评论 -
python爬虫-数据解析(bs4)
文章目录python爬虫-数据解析(bs4)基本知识概念bs4实例 —— 爬取三国演义所有章节效果图练习2---爬取多情剑客无情剑小说所有章节效果图python爬虫-数据解析(bs4)基本知识概念数据解析原理:标签定位提取标签、标签属性中存储的数据值bs4数据解析原理:1.实例化一个BeautifulSoup对象,并且将页面原码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或方法进行标签定位和数据提取环境安装:pip install bs4pip原创 2021-03-20 16:59:10 · 886 阅读 · 6 评论 -
python爬虫-数据解析(正则)
python爬虫-数据解析(正则)正则解析案例–爬取糗事百科的图片糗事百科URLhttps://www.qiushibaike.com/imgrank/page/2/查看网页源代码,发现图片储存的地址import requestsimport reimport osif __name__ == '__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap原创 2021-03-19 13:08:34 · 1324 阅读 · 6 评论 -
python爬虫-----request模块学习及案例
文章目录python爬虫-----request模块学习及案例基本知识str和bytes的区别urllib库常见方法Request对象User-AgentGet请求方法下载百度贴吧案例1.简单的网页收集器2.爬取百度翻译内容3.爬取豆瓣电影4.爬取kfc餐厅地址位置5.爬取药监总局python爬虫-----request模块学习及案例基本知识str和bytes的区别python3中:str 使用encode方法转化为 bytesbytes通过decode转化为str在Python 3中把两者给原创 2021-03-17 19:00:42 · 1759 阅读 · 10 评论