爬虫
文章平均质量分 68
python爬虫
CPU NULL
算法高深莫测,人生如逆旅,我亦是行人
展开
-
Python爬虫:下载4K壁纸
🎁🎁创作不易,关注作者不迷路🎀🎀我们经常想要寻找一些高清的壁纸,图片作为素材(为CSDN博客找一张吸引读者的封面🤣),然而一张一张的下载太慢了,因此为了提高工作效率, 我们可以采用爬虫的方式,快速下载图片。原创 2024-08-10 15:41:11 · 8126 阅读 · 17 评论 -
Python爬虫:下载人生格言
用requets获取的源代码如图,想要的信息就在这里面,我们需要提取出来,因此就要用到Xpath进行解析,要先学习一下Xpath语法和lxml库的使用,可以在网上查找相关资料。鼠标右键,选择”检查“,点击”网络“,ctrl+R刷新页面,点击第一份文件,点击”标头“,滑到最下方查找”User-Agent“,复制到pycharm中即可。最简单的只用加上user-agent就可以了。将目录下的所有人生格言提取并保存在本地。将这些格言下载存储到本地。原创 2024-08-01 20:26:59 · 2132 阅读 · 2 评论 -
正则表达式-re模块(1)
re.findall()一次能查找所有符合条件的内容,而re.research()一次能查找第一个成功匹配的。替换函数在爬虫中也是有重要的作用,对于爬取得信息,可以利用re.sub()替换,从而提取出有效信息。从字符串的起始位置开始匹配,匹配失败返回None,匹配成功返回对象。""里面得信息不是我们想要的,用re.sub()替换删除。扫描整个字符串并返回第一个成功的匹配。替换函数,将函数某些值替换。原创 2024-07-27 22:55:43 · 296 阅读 · 0 评论 -
python爬虫入门小案例
HTTP协议:HyperText Transfer Protocol,超文本传输协议,发布和接收HTML的协议,服务器端口号:80端口HTTPS协议:HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号:443我们平时输入网址时不需要手动输入端口号,浏览器会自动识别,例如下图,CSDN使用的是HTTPS协议,我们可以手动输入:443,按下回车,仍可访问网页输入错误的端口号,会加载失败,例如我们输入:80,会显示响应无效URL:Uniform Resource Locator,统一资源定位符。原创 2024-07-23 15:09:15 · 2640 阅读 · 0 评论