最新猫眼电影反爬虫解密

最新推荐文章于 2020-12-19 04:33:23 发布

Shadow0418

最新推荐文章于 2020-12-19 04:33:23 发布

阅读量2.5k

点赞数

本文链接：https://blog.csdn.net/u010286751/article/details/103674454

版权

一、背景

看了网上很多的博客教程基本都已经失效了，截止2019年12月23日亲测是可行的，以后猫眼可能会修改策略

查看网页源码会发现是这些字母组成了它的实时票房，并且每次刷新都会变化，是因为每次动态刷新了class=stonefont对应的woff字体静态文件造成的

因为woff文件会变，所以猜想每个woff文件之间应该有一定的关联性

二、解密步骤

1)、手工制作基本字典

先用python把woff文件转化成xml文件

#!/usr/bin/python
# coding:utf-8
from fontTools.ttLib import TTFont
font=TTFont('./base.woff') #读取woff文件
font.saveXML('./base.xml') #转成xml

查看部分base.xml 代码, 可以发现 TTGlyph 标签的name属性值可以对上页面html中的源码，这样可以手工把base.xml做成一个字典

<TTGlyph name="uniEC4C" xMin="0" yMin="-27" xMax="525" yMax="707">
      <contour>
        <pt x="323" y="-26" on="1"/>
        <pt x="331" y="140" on="1"/>
        <pt x="7" y="146" on="1"/>
        <pt x="24" y="232" on="1"/>
        <pt x="337" y="707" on="1"/>
        <pt x="421" y="707" on="1"/>
        <pt x="419" y="232" on="1"/>
        <pt x="524" y="224" on="1"/>
        <pt x="512" y="144" on="1"/>
        <pt x="421" y="155" on="1"/>
        <pt x="424" y="-13" on="1"/>
        <pt x="331" y="-22" on="1"/>
      </contour>
      <contour>
        <pt x="322" y="241" on="1"/>
        <pt x="333" y="563" on="1"/>
        <pt x="92" y="232" on="1"/>
        <pt x="341" y="232" on="1"/>
      </contour>
      <instructions/>
    </TTGlyph>

2)、解析最新的woff文件和手工字典做比对

假设新的woff文件是test1.woff ,直接用第一步的python脚本转化为test1.xml 文件，然后查看test1.xml文件部分代码

<TTGlyph name="uniF13C" xMin="0" yMin="-36" xMax="521" yMax="713">
     <contour>
       <pt x="322" y="-26" on="1"/>
       <pt x="316" y="158" on="1"/>
       <pt x="28" y="146" on="1"/>
       <pt x="13" y="221" on="1"/>
       <pt x="347" y="712" on="1"/>
       <pt x="434" y="695" on="1"/>
       <pt x="426" y="237" on="1"/>
       <pt x="505" y="232" on="1"/>
       <pt x="520" y="149" on="1"/>
       <pt x="419" y="149" on="1"/>
       <pt x="435" y="-35" on="1"/>
       <pt x="331" y="-26" on="1"/>
     </contour>
     <contour>
       <pt x="331" y="232" on="1"/>
       <pt x="331" y="572" on="1"/>
       <pt x="96" y="227" on="1"/>
       <pt x="339" y="240" on="1"/>
     </contour>
     <instructions/>
   </TTGlyph>

页面截取的base.xml中的代码和test1.xml中的代码都是同一个数字4，仔细观察可以看出它们的字形很相近， base.xml中的x轴及y轴位置和test1.xml中x轴及y轴的位置很相近，绝对值误差在80以内，但也有部分超过了80，此时我们只需要从test1.xml中求出和base.xml中最相近的字体就可以了，即求test1.xml中的TTGlyph元素在base.xml手工字典中字形相似度最高就是base.xml中的哪个数字了

伪代码如下(自己是用python转化成xml文件之后使用java实现的，具体代码太多了就不贴出来了)

int weight = 0 
ifabs(base[i][0] - test1[i][0]) <80andabs(base[i][1] - test1[i][1]) <80:
++weight

核心思想就是求字形的相似度weight，权重最高的数字就是最终的答案。

Shadow0418

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
最新猫眼电影反爬虫解密

一、背景       查看网页源码会发现是这些字母组成了它的实时票房，并且每次刷新都会变化，是因为每次动态刷新了class=stonefont对应的woff字体静态文件造成的        因为woff文件会变，所以猜想每个woff文件之间应该有一定的...
复制链接

扫一扫