python爬虫
文章平均质量分 80
Selenium,requests,bs4,webdriver
wdxylb
这个作者很懒,什么都没留下…
展开
-
爬虫获取不同数据类型(如JSON,HTML)的处理方法以及图片相对URL地址的转换
当我们爬取图片的URL地址时,我们要确保它们都是有效的绝对URL,这样就可以直接用这些URL来下载图片了。但是很多时候,它们都不是绝对URL地址,因此我们需要它进行URL转换。下面介绍不同的数据类型在python中的处理方法: JSON 获取 JSON 数据:解析 JSON 数据:提取图片 URL 列表:下载图片并保存到本地: 如果网页内容是以 JSON 格式返回的,你可以直接使用 库来获取 JSON 数据,然后解析并保存其中的图片。以下是如何处理 JSON 数据并下载其中的原创 2024-10-05 23:59:25 · 1365 阅读 · 0 评论 -
解决Python使用Selenium 时遇到网页 <body> 划不动的问题
如果在使用 Selenium 时遇到网页的划不动的问题,这通常是因为页面的滚动机制(例如,可能使用了一个具有固定高度的容器或自定义的滚动条)导致无法通过简单的 JavaScript 实现滚动。可以通过以下方法来解决该问题。原创 2024-10-03 17:59:47 · 1619 阅读 · 0 评论 -
Python使用Selenium动态爬取CSDN社区帖子的URL链接
于是我想将那个社区的帖子都爬下来,但是那个社区发布的贴子挺多的,一直往下拉才到2022年5月的发布。我首先想的是匹配,输入一个字符串为'2022-05-21'的参数,然后抓取每一个最新加载出来的帖子的日期,用来和我的参数进行比较,如果等于的话就不再模拟下拉。但要注意的是社区帖子的页面有三个可以拉动的div容器,我们要抓取的帖子在第二个div容器里,这个div容器用body标签是滚动不了的,所以我写了一篇解决body标签无法滚动的文章。模块提供了方便的功能来处理日期和时间,包括日期的比较。原创 2024-10-04 18:42:51 · 587 阅读 · 0 评论 -
使用Python爬虫将获得的图片URL保存到远程数据库中
以下的自定义类用来在你指定的数据库(由engine告诉函数是哪个数据库)中创建表,表名为__tablename__后面的值(注意这是双下划线),属性列则是接着的"id","name","url"这三个,用Column函数指定对应的数据类型,同时id指定为主键,如果导入的数据没有id,则会从1自增,我们只导入name和url地址,name是截取部分url地址获取的。在python中下载对应的第三方库,包括爬虫需要用的requests和bs4,以及数据库需要用的sqlalchemy和pymysql。原创 2024-09-22 23:33:41 · 1440 阅读 · 0 评论 -
Python爬虫通过 Cookie 和会话管理来维持其在网站上的会话状态
通过使用 Cookie 和会话管理,可以实现python爬虫模拟用户登录并保持会话状态,从而实现对需要登录的网站的有效抓取。requests库提供了简单而强大的接口,帮助开发者处理这些复杂的会话操作。在使用这些技术时,务必遵守网站的使用条款和相关法律法规,确保合法合规。原创 2024-09-30 00:04:40 · 1420 阅读 · 0 评论 -
Pyhton爬虫使用Selenium实现浏览器自动化操作抓取网页
同样我将这些步骤封装成了一个函数,不过因为爬取网页需要分析特定的网页结构,所以能够复用的地方有限,该函数只能用于百度官网,因为我也不确定其他网站的输入框input元素的id是不是"kw"。这个函数有两个参数,第一个是搜索的内容,可以换成其他的,但因为该函数要抓取的是图片URL,所以范围也是有限。第二个是默认参数,默认值为'由于本文旨在讨论Selenium的自动化操作,涉及爬虫的内容并不会很多,所以在接下来的抓取图片URL的操作,只是简单的抓取可见的img标签,对于可能还未被加载的图片不在过多讨论。原创 2024-09-28 00:03:45 · 608 阅读 · 0 评论