文字反爬是反爬虫的一种常用手段。
在Python中有专门的库可以使用,而Go没有此类库,只能通过别的手段解决文字反爬。
在这给大家分享我的思路:
1.如何判断是否为文字反爬呢
如图所示,HTML界面显示方框
打开页面源代码查找到对应位置,发现显示方框的位置有特殊的16进制字符串
这里 𘞣𘞥𘞢𘞜𘞜 就是我们需要解析的方框。
出现方框的原因是页面字体以utf-8显示,utf-8字体库中每一个汉子对应一个二进制(16进制),如果utf-8中找不到对应的16进制,那么会以方框的样