- 博客(22)
- 收藏
- 关注
原创 Scrapy框架原理与使用流程
在数据管道处理的第一步中,我们定义一个继承自`scrapy.Item`的类,这个类通过使用`scrapy.Field()`定义字段,来存储我们需要爬取的数据。`scrapy.Item`,这个类通过使用`scrapy.Field()`定义字段,来存储我们需要爬取的数据。我们需要存几个字段的数据就定义几个字段的值, 字段名= scrapy.Field()
2024-10-22 22:02:07
2255
原创 Selenium处理验证码
防止恶意破解密码、刷票、论坛灌水、刷页。有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登录尝试,现在也用于反爬虫 风控这块。
2024-10-22 20:54:56
2210
原创 Selenium进阶:动作链+窗口切换+元素等待
抛出异常 隐式等待是全局性的 只需要设置一次 即运行过程中,如果元素可以定位到,它不会影响代码运行,但如果定位不到,则它会以轮询的方式不断地访问元素直到元素被找到,若超过指定时间,则抛出异常。显式等待利用`WebDriverWait`配合条件判断(`until`或`until_not`)进行元素定位,只有当元素出现或满足指定条件时才执行后续操作,若超时未满足条件则抛出异常。method:指定预期条件的判断方法,在等待期间,每隔一段时间调用该方法,判断元素是否存在,直到元素出现。(2)使用无界面模式。
2024-10-21 22:36:50
1209
原创 Selenium自动化测试工具
Selenium的核心功能之一是测试软件在不同浏览器和操作系统上的兼容性,确保软件功能与用户需求的一致性,提升用户体验。
2024-10-21 20:48:48
886
原创 代理与模拟登录
我们用程序访问人家网站,请求次数一下很多 不像人在访问,有些网站就会封掉你的IP 封了以后,当前的IP就不能访问这个网站,爬不了这个数据。
2024-10-20 22:56:31
2369
原创 爬取安居客 所有条数的租房字段数据 使用xpath取出标题 价格 标签 地址 房屋信息
1.确定目标url:‘https。2.发起请求,获得响应。
2024-10-16 22:25:15
203
原创 爬虫之数据解析====xpath
xpath方法 返回的是列表 列表的数据 默认是Elementprint('/html/body/div/ul/li')) #获取这所有的liprint('body/div/ul/li')) #获取这所有的liprint('//li')) #获取这所有的li。
2024-10-08 21:58:53
275
原创 爬虫之数据处理(HTML)----bs4(css选择器)
BeautifulSoup用来解析HTML比较简单,API非常热人性化,支持css选择器,python标准库中的HTML解释器,也支持lxml的xml解释器。BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库。. → class选择器。> → 子代后代选择器。# → id选择器。
2024-10-08 17:22:19
263
原创 爬虫之数据解析----JSON
JSON是一种轻量级的数据交换格式,他使人们更容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。前端(JS,HTML,CSS) →JSON → 后端(python)后端(python) → JSON → 前端(JS,HTML,CSS)
2024-10-05 02:46:38
392
原创 爬虫之数据解析----正则
match方法 : 查找字符串头部 一次匹配 要找到了一个匹配的结果就返回,而不是查找所有匹配的结果。findall方法 : 查找所有匹配的结果 然后返回列表。(2)非贪婪模式:尽可能少的匹配 后面加?(1)贪婪模式:尽可能多的匹配 默认为贪婪模式。.匹配任意字符 除了换行符。在代码后面加re.S即可。规则默认在一行内匹配。
2024-10-04 20:46:58
671
空空如也
selenium可以跟进爬取吗
2024-11-14
selenium scarpy js逆向都适合在什么情况下呢使用或组合使用
2024-11-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅