python抓取script VAR变量

因工作需要对一个脚本里的var变量进行提取,看了很多教程,安装了一堆的库lxml、bs4、json,后来发现都没有用,最基本的re和requests就够了,先上var所在script 内容

<script>
    var MyMarhq = '';
    clearInterval(MyMarhq);
    $('.tbl-body tbody').empty();
    $('.tbl-header tbody').empty();
    var str = '';
    var Items = [{"cbbm":"部门","cbbmbm":"109","cbrbm":"360001128","cbrmc":"贾*","count":3},{"cbbm":"部门","cbbmbm":"502","cbrbm":"360001560","cbrmc":"张*","count":1},{"cbbm":"部门","cbbmbm":"109","cbrbm":"360001068","cbrmc":"赵*","count":5},{"cbbm":"部门","cbbmbm":"109","cbrbm":"360001121","cbrmc":"王*","count":1},{"cbbm":"部门","cbbmbm":"109","cbrbm":"360001564","cbrmc":"逄*","count":3}];
    var Items_ = 0

需要提取 var Items 后面的内容,想了很多办法,都不好用,最后用正则表达式搞定。

import re
import requests
url = 'your url'#var 所在网页
    resp = requests.get(url)
    text = resp.text
    # print(text)
    
   cbrbms = re.findall(r""".+?cbrbm":"(.+?)"  
    .+?cbrmc":"(.+?)"
    """, text, re.VERBOSE | re.DOTALL)
    #  '.+?'意思是任意一串字符,cbrbm和后面的符号表示用于识别的关键字,()表示要提取的内容,()后的双引号表示提取结束的标识, re.VERBOSE | re.DOTALL什么意思我也不太懂,但是一个不能少,少了就提取不出来。

效果就是提取了,cbrbm(人员编码)和cbrmc(人员名称),取回来是list类型。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值