大众点评的网站爬虫难点在于其对网页上的文字做了加密处理,所以学习了大佬的方法,链接如下:
如下图所示,大众点评的评论数,价格和地址等信息对应在源码中都是方框,无法使用常规手段直接爬取到信息,但是自定义了字体,那么网页肯定需要加载字体文件。
谷歌浏览器右键检查并点击network,刷新页面后点击font,可以看到加载的字体文件。但是需要注意的是字体的文件和教程已经是不一样的,说明大众点评的字体文件不止一套,所以想一劳永逸的爬取大众点评应该是不可能的了。
复制URL下载字体文件并粘贴到新页面下载,将字体导入到FontEditor里
链接为:http://fontstore.baidu.com/static/editor/index.html
另外此处直接导入--导入字体文件是不行的,需要先点击左上方的打开后才可以执行后续操作
导入后:
可以看到这里的编码和之前的教程里的文件已经不一样了,再次证明了美团自己设计了多套字体
查看源码的评论位置如下,编码方式与教程中的基本一致
之后就是通过fontTools库解析字体并获取信息即可