一.问题
![014d534595086f677888fe9e07aa45e5.png](https://i-blog.csdnimg.cn/blog_migrate/67da2b1939f32374c013a49d8acb262c.jpeg)
可以看到,猫眼网电影评分,票房等的数据在响应的html中并不是直接提供给你的。这里的xefcf,xef87等数据,是以‘特殊符号’的形式显示出来的。
![c782438aed8961ef78dd7a70219113c7.png](https://i-blog.csdnimg.cn/blog_migrate/540c8bf571f4670a75c70a57158629e2.jpeg)
可以发现这里请求了一个woff字体文件,而xefcf,xef87等数据的规则就是在这其中的。所以我们只需要在请求这个网页的同时,截去这部分style,然后获得woff地址,将它下载到本地,进行解析,就可以实现对评分的解密了。
但是再来看下面,当同一部电影的页面刷新时。
![b0f4ffdaacc66f7ca5a71bd1c87b8e63.png](https://i-blog.csdnimg.cn/blog_migrate/56db0c63a489cad6f35849229cab4c79.jpeg)
![0ff2d97c681bbb31f5546879cee3b9ef.png](https://i-blog.csdnimg.cn/blog_migrate/06962b10cf983998afd6be8f75886195.jpeg)
这里的评分编码改变了,下面请求的woff的url也改变了。所以每次请求电影页面使用的woff都不是同一个。
在这种情况下,如何才可以实现评分的爬取呢?
二.分步实现
1.页面爬取
第一步我们需要先将整个html页面获取,其中重要的数据就是评分所在的那个span,还有woff的url所在的那个style.
这里使用requests获取网页内容,用BeautifulSoup进行关键内容解析.
'''遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!'''# 请求头设置header = { 'Accept': '*/*;', 'Connection': 'keep-alive', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'maoyan.com', 'Referer': 'http://maoyan.com/', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}def web(url): db_data = requests.get(url, headers=header) # 这里直接将其编码之前部分替换掉,防止之后使用转义 soup = BeautifulSoup(db_data.text.replace(