具体的数据如下
查看页面源代码发现,一个好玩的事情,源代码中使用了大量的CSS3的语法
下图,我标注的部分就是关键的一些数据了,大概在600行之后。
反爬措施展示
源文件数据
刹车/<span class='hs_kw86_baikeIl'></span>安全系统
页面显示数据
一些关键数据被处理过了。
爬取关键信息
我们要把源代码中的关键信息先获取到,即使他数据是存在反爬的。获取数据是非常简单的。通过request模块即可
def get_html(): url = "https://car.autohome.com.cn/config/series/59.html#pvareaid=3454437" headers = { "User-agent": "你的浏览器UA" } with requests.get(url=url, headers=headers, timeout=3) as res: html = res.content.decode("utf-8") return html
找关键因素
在html页面中找到关键点:
- var config
- var levelId
- var keyLink
- var bag
- var color
- var innerColor
- var option
这些内容你找到之后,你下手就用重点了,他们是什么?数据啊,通过简单的正则表达式就可以获取到了
def get_detail(html): config = re.search("var config = (.*?)};", html, re.