python爬虫 : 汽车之家车型最新爬取解密方法

最新推荐文章于 2024-07-01 23:13:55 发布

qq_36155609

最新推荐文章于 2024-07-01 23:13:55 发布

阅读量1.8k

点赞数 3

分类专栏： python 汽车之家爬虫

本文链接：https://blog.csdn.net/qq_36155609/article/details/83904474

版权

python 同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

汽车之家

1 篇文章 0 订阅

订阅专栏

汽车之家作为一家上市公司，本身具有强大的技术实力支持，简单的数据易爬，复杂而机密的数据，可见不可求。

如下图所示：核心的数据，在页面是找不到文字的，全是空空空空！！！和尚一样！

经过测试发现，这些数据都是CSS伪代码装载而成，每一个class代表一个字或单词。如上图，class="hs_kw17_configbF"就代表“一汽”。

知道原理后，基本就是解码工作，怎么干最快？

html = driver.page_source #通过selenium把js驱动的css代码加载下来

obj = re.compile('span class="(hs_kw.*?)"></span>', re.S) # 提取CSS代码
brands = obj.findall(html) #

# 对加密网页破译
brands = list(set(brands))
for classname_ in brands:
txt = get_classname(classname_) #造一个解析函数来解码CSS
html = re.sub('<span class="' + classname_ + '"></span>', txt.replace('"', ''), html) #一次性全部替换成中文，这样就能正则了。

python的核心思想就是少写代码，要是一个代码写很长解决不了问题，那就是方向不对，重新思考哦。