python爬虫大众点评_Python爬虫(三)爬取大众点评网

大众点评的网站爬虫难点在于其对网页上的文字做了加密处理,所以学习了大佬的方法,链接如下:

如下图所示,大众点评的评论数,价格和地址等信息对应在源码中都是方框,无法使用常规手段直接爬取到信息,但是自定义了字体,那么网页肯定需要加载字体文件。

谷歌浏览器右键检查并点击network,刷新页面后点击font,可以看到加载的字体文件。但是需要注意的是字体的文件和教程已经是不一样的,说明大众点评的字体文件不止一套,所以想一劳永逸的爬取大众点评应该是不可能的了。

复制URL下载字体文件并粘贴到新页面下载,将字体导入到FontEditor里

链接为:http://fontstore.baidu.com/static/editor/index.html

另外此处直接导入--导入字体文件是不行的,需要先点击左上方的打开后才可以执行后续操作

导入后:

可以看到这里的编码和之前的教程里的文件已经不一样了,再次证明了美团自己设计了多套字体

查看源码的评论位置如下,编码方式与教程中的基本一致

之后就是通过fontTools库解析字体并获取信息即可

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值