用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

最新推荐文章于 2021-03-26 16:05:02 发布

Python 学习者

最新推荐文章于 2021-03-26 16:05:02 发布

阅读量2.2k

点赞数

分类专栏： python 文章标签：编程 python

python 专栏收录该内容

1472 篇文章 281 订阅

订阅专栏

1. 思路

这几天尝试写了个脚本模拟登陆获取地铁一卡通的充值和消费记录，学习了不少新东西，总结下记录下来。整个流程大概这样，首先模拟登陆一卡通的查询网址，分析如何获取验证码，然后就是下载验证码并识别，分析网站post数据字段，模拟post构造的数据登陆，获取登陆后的网页，bs4解析网页找到需要的数据筛选出来，pandas处理这些数据使其结构化。

2. 模拟登陆

2.1 cookie的处理

因为涉及到验证码的问题，登陆需要使用cookie。requests可以很方便的使用cookie，只需要在最开始构建一个会话session，接下来的请求以这个session为基础，requests会自动为后面的请求带上cookie。

实战教程：用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

更多Python视频、源码、资料加群683380553免费获取

2.2 SSL证书

有些网站需要校验SSL证书，我们可以手动在浏览器中下载这个网站的SSL证书存放到本地，在构建请求的时候的用verify字段指定证书的路径。但是我没有尝试成功，目前的猜想是网站上有些字段需要携带在请求里一起验证。

最简单的解决办法就是不做验证，可以在会话开始指定，也可以在请求字段中指定：

conn.verify = False

或者：

resp = conn.get(url, headers=headers, verify=False)

2.3 验证码获取和识别

如何获取到验证码呢？我们知道每点击一次验证码图片就会刷新一次，由此可以得出：点击验证码图片的时候浏览器会重新向服务器发送请求，我们可以在开发者工具里点击验证码并捕捉这个请求，观察其特征。

实战教程：用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

可以发现，验证码的URL有固定的结构，其中变化的部分就是后面的一串数字，不难发现这串数字就是时间戳。知道了验证码的URL后，我们就可以构建请求下载验证码了。

实战教程：用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

利用Tesseract-OCR、pytesseract和Pillow库识别验证码，可以参考我之前的这篇文章：python验证码识别。

3. 模拟填写表单

识别完验证码就可以模拟填写表单了。首先我们找到表单提交的URL以及相关的字段，还是利用浏览器开发者工具观察提交表单时候产生的请求并分析。

实战教程：用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

可以看到，表单中包含四个字段，我们也同样构造这几个字段，构建一个post请求给指定的URL。

实战教程：用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

4. 分析html数据

这部分主要是bs4的用法，这块儿我还不是很熟，总结下几个函数的用法。

find_all()

find_all( name , attrs , recursive , text , **kwargs )

实战教程：用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

带属性的标签，推荐用上面的第2种或第3种写法。

find()

find( name , attrs , recursive , text , **kwargs )

find_all()方法返回的是文档中符合条件的所有tag，是一个集合(class 'bs4.element.ResultSet')，find()方法返回的一个Tag(class 'bs4.element.Tag')

select()

select可以筛选元素，按标签逐层查找。

实战教程：用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

注意，以上按路径标签之间的空格 td div a，可以用>，但也要注意>与标签之间都有空格。

注意：select()方法指定标签属性可以这样用：

uls = soup.select('a.nbg') # <a class="nbg">

其他方法
getText() 针对以上几种方法的迭代对象，获取对象的内容
pandas使用

实战教程：用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

其他

字典设置键值以及对应键值初始化：

dict.setdefault(key, default=None)

学会了吗？赶快行动把

更多Python视频、源码、资料加群683380553免费获取

Python 学习者

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

1. 思路这几天尝试写了个脚本模拟登陆获取地铁一卡通的充值和消费记录，学习了不少新东西，总结下记录下来。整个流程大概这样，首先模拟登陆一卡通的查询网址，分析如何获取验证码，然后就是下载验证码并识别，分析网站post数据字段，模拟post构造的数据登陆，获取登陆后的网页，bs4解析网页找到需要的数据筛选出来，pandas处理这些数据使其结构化。2. 模拟登陆2.1 cookie的处理...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。