- 博客(6)
- 收藏
- 关注
原创 Python爬虫之requests__cookies登录古诗文网
难点:(1)__VIEWSTATE、__VIEWSTATEGENERATOR.一般情况下看不到的数据都在页面源码中 # 通过查看页面源码,发现这两个变量都可以在页面源码中找到,所以我们需要获取页面源码,进行解析得到这俩变量。此案例需要手动识别验证码,可以借助其他手段对验证码图片进行自动验证。#观察看出:__VIEWSTATE、__VIEWSTATEGENERATOR、code是变量。这个案例对于爬虫小白来说还有一定的难度,但是一步一步分析下来还是有规律可循的。#通过找登录接口 发现需要的参数很多。
2024-02-06 17:51:44 529 1
原创 Python中requests模块基本使用
在使用requests模块时,需要pip install requests进行安装。#设置响应的编码格式:response.encoding = 'utf-8'#以字符串的形式返回了网页源码:response.text。#返回响应状态码:response.status_code。#返回的是二进制数据:response.content。#Response类型:type(response)#返回响应头数据:response.headers。#返回url地址:response.url。
2024-02-04 05:00:00 484 1
原创 Python爬虫中selenium的一个小问题
今天跟随B站老师学习selenium的基本使用出现一个错误。显然,我用的是Edge浏览器,检查了驱动器版本没有问题。
2024-02-03 08:45:00 1729 1
原创 Python爬虫之用bs4爬取蜜雪冰城菜单
//li[@class="row-3"]//article/h1是xpath路径,在bs4中需要转换。
2024-02-02 17:10:28 847
原创 Python爬虫之用jsonpath解析淘票票
2、如果使用json.load出现报错,那么需要注意encoding的设置。3、获取的content需要进行切片操作才能成为标准的json文件。1、注意headers中哪些请求头信息不能丢。
2024-01-31 16:28:01 553
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人