快手字体反爬虫?请给我10分钟,让我破了他

前景摘要

最近一个朋友问我,字体反爬虫的事,他发给我一个快手网站,我由于比较忙没回他,于是后来他说解决不了就要上scrapy框架,我是正义的程序员,这么小的事情就上框架,这也太残忍了,无故增加人家服务器压力多不好,人家网站维护者也是为了讨生活的程序员,咱们也是,因该相互体贴。于是我挺身而出,对他说,请给我10分钟让我破了他。

字体反爬虫

字体反爬虫给的来源呢
:我们了解到html是单个网站的骨架,而css是用来修饰html的,虽然页面渲染加载css样式的时候是不会改变html的内容,但是字体的加载与映射工作是由css来完成的,所以我们可能使用Splash,selenium和puppereer,都无法解决,字体反爬虫就是利用这个特点
比如下图,红色框框的地方,我们发现数字都被加密了。有点像韩文。
在这里插入图片描述

突破字体反爬虫思路的探索

1.探索字体被改变的原因
如下图,我们之前说过了,字体的加载与映射关系是通过css样式设置的,于是我们在css样式中看到了设置字体代码如下:
在这里插入图片描述
总结:在代码中我们可以看到eto,woff等格式的字体文件,于是我们可以判断,网页中的数字就是被这些文件所改变的,并且这么多文件,只有一套字体,可能是为了兼容各种系统把。
2.探索字体文件的映射规律
于是我们下载后,使用百度编辑器FontEditor来进行字体实时预览的功能,请点击我,界面如下图所示
在这里插入图片描述
先将这个https://static.yximgs.com/udata/pkg/kuaishou-front-end-live/fontscn_h57yip2q.eot文件下载下来,并使用百度编辑器FontEditor进行打开,打开后字体如下:
在这里插入图片描述
我们可以发现,这里有14个字体块,并且包含所有的数字并且每个数字下面都包括了一个美刀符号跟四个字母,于是我在快手页面随便找了三个特殊字符。进行使用unicode编码。
代码示例

special_character = '뷍껝뾭'
new_special_character = (list(map(lambda x: x.encode('unicode_escape'), special_character)))
print(new_special_character)

'''
运行结果:

[b'\\ubdcd', b'\\uaedd', b'\\ubfad']
'''

我们将结果与上图的数字图片下的一个美刀符号跟四个字母组成的字符串进行对比
经过对比我们发现

b'\\ubdcd'   $BDCD    1
b'\\uaedd'   $AEDD    8
b'\\ubfad'   $BFAD    9

根据与原来的网页数据进行对比我们发现189就是正确的,那么说明这个映射关系显而易见了。
总结:于是我们判定这个编码映射关系需要我们事先根据文件样式规则来制定,就是图片上面的字符串去掉$再在前面加上\u,然后全变小写就行。有五个文件,于是我们需要弄5次来应对突发情况。

最终突破快手反爬虫代码

代码示例

import requests

def deal_with_character(special_character):
    #     #将映射关系写入字典
    fontscn_h57yip2q = {
            r'\\uabcf': '4',
            r'\\uaced': '3',
            r'\\uaedd': '8',
            r'\\uaede': '0',
            r'\\uafcd': '6',
            r'\\ubdaa': '5',
            r'\\ubdcd': '1',
            r'\\ubfad': '9',
            r'\\uccda': '2',
            r'\\ucfbe': '7',
        }
    #进行unicode编码
    new_special_character = (list(map(lambda x: x.encode('unicode_escape'), special_character)))
    #定义处理过后的字符列表
    character=[]
    #进行匹配
    for i in new_special_character:
        try:
            character.append(fontscn_h57yip2q[str(i)[2:-1:]])
        except:
            character.append(str(i)[2:-1:])
            continue
    return "".join(character)


def main():

    header={

        "Cookie": "clientid=3; did=web_4ebab7dfa63d79cba7ebe0fdf6330b28; client_key=65890b29; kuaishou.live.bfb1s=9b8f70844293bed778aade6e0a8f9942; userId=1218439726; userId=1218439726; kuaishou.live.web_st=ChRrdWFpc2hvdS5saXZlLndlYi5zdBKgAQxtC5tRiuxaK7exGY2Es00UuzlMfobuAuxGfkK6x-tk7pWojDEw5aQtUDZPvv4hYhCGE1orwpglwzxRhPRuYMwdN-RVzF9hvPItDsc0oGl9IhKnm6Q6XXf9BAWyskjSdlDgr1uW0NSTPaMcyvEQJTWIPluziQ5AX7q4oJEzkn2rVts8QOORyllrNbydXRyLiQu-H6iQ2uji-R4-NmAmJA8aEoJNhwQ4OUDtgURWN6k9Xgm8PSIgD-8O23y2QtSaLlc_WCgf4Ev2ugqnxbObwRXH46NWAWsoBTAB; kuaishou.live.web_ph=5c4e3fa8b45ada2084298dec8946ba78971e",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36",
    }
    
    data={"operationName":"sensitiveUserInfoQuery","variables":{"principalId":"wudadala"},"query":"query sensitiveUserInfoQuery($principalId: String) {\n  sensitiveUserInfo(principalId: $principalId) {\n    kwaiId\n    userId\n    constellation\n    cityName\n    countsInfo {\n      fan\n      follow\n      photo\n      liked\n      open\n      playback\n      private\n      __typename\n    }\n    __typename\n  }\n}\n"}
    #进行post请求
    response_json=requests.post('https://live.kuaishou.com/graphql',headers=header,json=data).json()
    response_json1=response_json["data"]["sensitiveUserInfo"]["countsInfo"]
    #进行取出数据,并进行匹配
    for i,j in response_json1.items():
        print("{}:{}".format(i,deal_with_character(j)))


if __name__ == '__main__':
    main()

'''
运行结果:

fan:31.6w
follow:189
photo:538
liked:0
open:0
playback:0
private:0
__typename:CountsInfo
'''

总结:经过代码的匹配我们就完成任务了

Python快手爬虫是使用Python编写的程序,用于爬取快手平台上的个人列表下的所有作品和作品的评论。该爬虫程序使用了多个库,包括os、requests、selenium、time和requests_html等。 首先,需要引入必要的库,如os、requests和selenium等。其中os库用于保存文件,requests库用于获取src后下载视频,selenium库用于访问网站获取src,time库用于计时使网站加载完整,requests_html库用于访问网站。 然后,通过selenium访问网站,使用time库等待一段时间(例如2秒)来确保网站加载完整,然后使用selenium库获取视频的src链接。最后关闭浏览器。这样就可以获取到作品的src链接。 需要注意的是,使用selenium来获取src链接的原因是,通过requests库无法直接获取src链接,因为它在连接服务器的第一时间就把代码下载下来,还没有向服务器发送src的求。而selenium调用本地的浏览器,可以先访问网站,等待加载完成后获取到src链接。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [python 爬虫快手](https://blog.csdn.net/qq_40658762/article/details/99303092)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [python写一个简单的爬虫程序(爬取快手)(附源码)](https://blog.csdn.net/beginner2021/article/details/118584927)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值