应对字体反爬,通过python爬取小说排行榜

解决字体反爬的一种相对好一些的方式,制作一个爬取小说的排行榜的程序
摘要由CSDN通过智能技术生成

需求分析

这个需求我昨天已经做过一次了爬取小说排行榜,昨天我采用的方式是手动建立一个转换规则,然后通过这个规则,将所有的看不懂的字体编码替换为正常的文字内容。功能上是满足了,但是需要有一步手动添加转换规则,而且每次运行程序都需要重新来一次,当然这是不能让人满意的

其中,在昨天的文章中,有一个小伙伴就指出了这一点,他说,既然已经做了爬虫程序了,就不应该再让别人手动添加规则了,问我能不能想想办法改进一下,变成直接运行程序就可以使用的

说句实话,这不太容易,毕竟字体是对方网站自己编辑的,如果不去手动添加规则的话,我们根本就没有办法知道他编辑的这个字体对应的是哪个字,也许有小伙伴会提议说,可不可以通过文字识别技术来做到这一点呢?是一个办法,但是不太容易实现,不过好在,这次我们的运气不错,找到了一个更容易的方法,这个方法不是每次都好用,但是恰好这次能用,那就先用着呗,下面来看看我们的新方法是什么

实现分析

具体的页面以及css的字体反爬是什么样的,在昨天的文章中我已经写的很详细了,今天我并不打算再重复一次。如果有没看过昨天文章的小伙伴,可以先看昨天的文章。那么就直接进入正题

昨天的最大问题在于,我们需要手动建立字体编码到对应文字之间的关系,事实上这一步确实也是有必要的,但是现在我们需要找到一个能够让机器找出这个规则的办法

首先呢,我们下载一个能够解析字体的第三方库

  • 20
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值