python抓包检测入侵_Python爬虫实例 动态ip+抓包+验证码自动识别

最近出于某种不可描述的原因,需要爬一段数据,大概长这样:

64e5701b2fd4c625daf2ca1426c3b30d.png

是一个价格走势图,鼠标移到上面会显示某个时刻的价格,需要爬下来日期和价格。

第一步肯定先看源代码,找到了这样一段:

7bfc1e0b2e7826d9aebf07eb6da6f6d0.png

历史记录应该是从这个iframe发过来的,点进去看看,找到这样一段:

84922a49a07500bc226cbfe1c4e2aa8b.png

可以大概看出来是通过get一个json文件来获取数据,我们要的东西应该就在这个json里面。打开浏览器的开发者工具(F12),一个个看发过来的json,发现这样一个:

fc0dcb0195e9c4412e1b1492ae7f732b.png

打开看看:

005edb7b2b11b59a93a3bea412830a57.png

ok,我们找到了想要的东西了,接下来分析下这个url,发现一些规律,可以直接从第一页的url构造出来这个的url,除了一个token...从源代码里找到这玩意长这样...

5f70107b459596f9379cb8a4012ea6a9.png

菜鸡如我当然不知所措了...只能模拟浏览器抓包了...加载完从这个frame的src里可以找到这个token,问题解决,开爬!

以上部分的代码如下:

#coding=utf8

importurllib.requestimportjsonimportrequestsimportrefrom selenium importwebdriverimporttimefrom bs4 importBeautifulSoupimportrequestsimportrandomimportpytzimportcv2from matplotlib importpyplot as pltfrom PIL importImage, ImageEnhanceimportpytesseractfrom selenium.webdriver.common.keys importKeysimportsysimportnumpy as npimportgcdefget_data_one_page(source, options, page):

key1= 'a href

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值