爬虫 | 奇葩反爬你是故意的还是不小心的

文章讲述了在从JS文件中提取并转换数据到JSON格式时遇到的错误,该错误源于JSON结构中的双引号嵌套导致。作者通过使用replace函数替换双引号为单引号来解决这个问题,认为可能是前端开发中的一个疏忽或特定的反爬策略。
摘要由CSDN通过智能技术生成

问题

在挖掘数据时,数据存在于js文件内,所以主要思路就是,把数据提取出来,直接转json格式,通过字典的键索引获取数据。奈何在转json格式的时候一直报错。

报错:Expecting value: line 1 column 2012 (char 2011)
我总不能一个一个字符地数吧!!

问题分析

通过json在线解析定位到了错误位置,然后发现这有个反爬。这个反爬并不涉及参数加密、混淆等手法。纯属是针对爬虫开发语言规则做出的反爬。
部分页面源码如下:
请添加图片描述

这里的\u0022指的就是双引号("),转换一下就是"introduction":"{"html":"我司是一家拥有多年羊毛衫生产经验的专业生产厂家"}"

不难发现,这里有一个错误,就是双引号套双引号"{"html":"..."}",我们只需要用replace把双引号替换成单引号就可以了。

解决方案

# reInfo是获取到的文本
reInfo = reInfo.replace("\"html\":\"", "\'html\':\'"))

麻了,真不知道前端程大哥是故意的还是不小心的!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值