需求分析
这个需求我昨天已经做过一次了爬取小说排行榜,昨天我采用的方式是手动建立一个转换规则,然后通过这个规则,将所有的看不懂的字体编码替换为正常的文字内容。功能上是满足了,但是需要有一步手动添加转换规则,而且每次运行程序都需要重新来一次,当然这是不能让人满意的
其中,在昨天的文章中,有一个小伙伴就指出了这一点,他说,既然已经做了爬虫程序了,就不应该再让别人手动添加规则了,问我能不能想想办法改进一下,变成直接运行程序就可以使用的
说句实话,这不太容易,毕竟字体是对方网站自己编辑的,如果不去手动添加规则的话,我们根本就没有办法知道他编辑的这个字体对应的是哪个字,也许有小伙伴会提议说,可不可以通过文字识别技术来做到这一点呢?是一个办法,但是不太容易实现,不过好在,这次我们的运气不错,找到了一个更容易的方法,这个方法不是每次都好用,但是恰好这次能用,那就先用着呗,下面来看看我们的新方法是什么
实现分析
具体的页面以及css的字体反爬是什么样的,在昨天的文章中我已经写的很详细了,今天我并不打算再重复一次。如果有没看过昨天文章的小伙伴,可以先看昨天的文章。那么就直接进入正题
昨天的最大问题在于,我们需要手动建立字体编码到对应文字之间的关系,事实上这一步确实也是有必要的,但是现在我们需要找到一个能够让机器找出这个规则的办法
首先呢,我们下载一个能够解析字体的第三方库