python爬虫 : 汽车之家车型最新爬取解密方法

2 篇文章 0 订阅
1 篇文章 0 订阅

汽车之家作为一家上市公司,本身具有强大的技术实力支持,简单的数据易爬,复杂而机密的数据,可见不可求。

如下图所示:核心的数据,在页面是找不到文字的,全是空空空空!!!和尚一样!

经过测试发现,这些数据都是CSS伪代码装载而成,每一个class代表一个字或单词。如上图,class="hs_kw17_configbF"就代表“一汽”。

知道原理后,基本就是解码工作,怎么干最快?

html = driver.page_source #通过selenium把js驱动的css代码加载下来

obj = re.compile('span class="(hs_kw.*?)"></span>', re.S) # 提取CSS代码
brands = obj.findall(html) #

# 对加密网页破译
brands = list(set(brands))
for classname_ in brands:
       txt = get_classname(classname_) #造一个解析函数来解码CSS
       html = re.sub('<span class="' + classname_ + '"></span>', txt.replace('"', ''), html) #一次性全部替换成中文,这样就能正则了。

python的核心思想就是少写代码,要是一个代码写很长解决不了问题,那就是方向不对,重新思考哦。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值