用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

1. 思路

这几天尝试写了个脚本模拟登陆获取地铁一卡通的充值和消费记录,学习了不少新东西,总结下记录下来。整个流程大概这样,首先模拟登陆一卡通的查询网址,分析如何获取验证码,然后就是下载验证码并识别,分析网站post数据字段,模拟post构造的数据登陆,获取登陆后的网页,bs4解析网页找到需要的数据筛选出来,pandas处理这些数据使其结构化。

2. 模拟登陆

2.1 cookie的处理

因为涉及到验证码的问题,登陆需要使用cookie。requests可以很方便的使用cookie,只需要在最开始构建一个会话session,接下来的请求以这个session为基础,requests会自动为后面的请求带上cookie。

实战教程:用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

更多Python视频、源码、资料加群683380553免费获取

2.2 SSL证书

有些网站需要校验SSL证书,我们可以手动在浏览器中下载这个网站的SSL证书存放到本地,在构建请求的时候的用verify字段指定证书的路径。但是我没有尝试成功,目前的猜想是网站上有些字段需要携带在请求里一起验证。

最简单的解决办法就是不做验证,可以在会话开始指定,也可以在请求字段中指定:

conn.verify = False

或者:

resp = conn.get(url, headers=headers, verify=False)

2.3 验证码获取和识别

如何获取到验证码呢?我们知道每点击一次验证码图片就会刷新一次,由此可以得出:点击验证码图片的时候浏览器会重新向服务器发送请求,我们可以在开发者工具里点击验证码并捕捉这个请求,观察其特征。

实战教程:用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

 

可以发现,验证码的URL有固定的结构,其中变化的部分就是后面的一串数字,不难发现这串数字就是时间戳。知道了验证码的URL后,我们就可以构建请求下载验证码了。

实战教程:用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

 

利用Tesseract-OCR、pytesseract和Pillow库识别验证码,可以参考我之前的这篇文章:python验证码识别。

3. 模拟填写表单

识别完验证码就可以模拟填写表单了。首先我们找到表单提交的URL以及相关的字段,还是利用浏览器开发者工具观察提交表单时候产生的请求并分析。

实战教程:用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

 

可以看到,表单中包含四个字段,我们也同样构造这几个字段,构建一个post请求给指定的URL。

实战教程:用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

 

4. 分析html数据

这部分主要是bs4的用法,这块儿我还不是很熟,总结下几个函数的用法。

  • find_all()
find_all( name , attrs , recursive , text , **kwargs )

实战教程:用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

 

带属性的标签,推荐用上面的第2种或第3种写法。

  • find()
find( name , attrs , recursive , text , **kwargs )

find_all()方法返回的是文档中符合条件的所有tag,是一个集合(class 'bs4.element.ResultSet'),find()方法返回的一个Tag(class 'bs4.element.Tag')

  • select()

select可以筛选元素,按标签逐层查找。

实战教程:用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

 

注意,以上按路径 标签之间的空格 td div a,可以用>,但也要注意>与标签之间都有空格。

注意:select()方法指定标签属性可以这样用:

uls = soup.select('a.nbg') # <a class="nbg">
  • 其他方法
  • getText() 针对以上几种方法的迭代对象,获取对象的内容
  • pandas使用

实战教程:用Python脚本模拟登陆获取地铁一卡通的充值和消费记录

 

  • 其他

字典设置键值以及对应键值初始化:

dict.setdefault(key, default=None)

学会了吗?赶快行动把

更多Python视频、源码、资料加群683380553免费获取

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,我可以为您提供一些Python模拟登陆获取cookie的代码示例。请注意,这里的代码仅供参考,具体的登陆方式和获取cookie的方式可能因网站而异。 ```python import requests # 创建一个 session 对象 session = requests.Session() # 登陆页面的 URL login_url = 'https://example.com/login' # 构造登陆请求的参数 payload = { 'username': 'your_username', 'password': 'your_password' } # 发送登陆请求 response = session.post(login_url, data=payload) # 检查登陆是否成功 if response.status_code == 200: print('登陆成功!') else: print('登陆失败。') # 获取登陆后的 cookie cookie_dict = requests.utils.dict_from_cookiejar(session.cookies) print('cookie:', cookie_dict) ``` 在这个示例代码中,我们首先创建了一个 `Session` 对象,这个对象可以自动保存和传递 cookie。然后,我们构造了一个登陆请求的参数 `payload`,其中包括了用户名和密码。接下来,我们通过 `session.post` 方法发送了一个 POST 请求,将登陆参数提交到了登陆页面的 URL 上。最后,我们检查了服务器返回的状态码,如果是 200,就表示登陆成功了,我们可以通过 `session.cookies` 属性获取登陆后的 cookie。最后,我们将 cookie 转换成字典格式并输出。 当然,实际的登陆过程可能比这个复杂得多,需要分析网站的登陆流程和参数,以及处理一些验证码等安全机制。但是,这个示例代码可以为您提供一个初步的思路和框架。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值