背景需求:
个人为了练习爬虫选择了爬取大众点评,并不顺利但最终终于有了一种方式获得。
具体的相关代码https://github.com/wuhongda/dazhongdianping
1、字体
图1
我们可以看到飘红部分1是正常显示,但是我们打开开发者调试时显示的全是一个正方形的框,而飘红的3 很明显是导入了一个字体,可以点击进去查看(图2所示),不同的标签使用了不同的字体的文件,当然woff字体的使用和为什么就不做解释了(因为对前端不了解),但是我们可以有一个基本的思路为什么所有的都是一个正方形框,有没有我们小时候的写字本田字格的意思!
图2
接下来我们可以看看网页源码图3所示
图3
然后我们可以看到所有的正方形框里的东西前缀都是以&#x开头的东西。
接下来我们将woff文件下载下来进通过FontCreator软件进行查看结果图4所示,所有页面的woff文件的内容都是一样的 但是上边Unicode码不一样,而且对数字和文字引用了不同的字体库。
我们用python将woff解开之后如图5所示,woff进行解开之后对应的position字段都是一样不变的,但是前边的Unicode、十六进制码、十进制码都是不一样的,所以在每次后端变化时间我们只需要更新对应的字段,对应的不用字段在git上可以查看。