python爬虫:大众点评商家信息 9012 10/23

本文介绍了使用Python爬虫抓取大众点评商家信息时遇到的难点,包括SVG汉字问题和CSS字体加密。针对SVG,可以通过提取CSS文件中的类名与SVG图对应关系来获取信息。对于CSS加密,需要理解字体文件的Unicode和坐标对应,并可能需要进行手动或机器识别。此外,由于字体文件会变化,需要建立字体对应表并理解大众点评的加密方法。
摘要由CSDN通过智能技术生成

昨天看了下这个网站,了解了下,挺好玩的,今天写了代码,运行的话,没太大问题,主要的问题,就是大众点评的验证码问题,以及其汉字svg的问题,对于大众点评,相信很多人都想要其数据,说说抓取思路吧,搜索后的网页,大致是这样的http://www.dianping.com/guangzhou/ch10/g110,对于其店铺的信息,都是svg图截图的数据,大家多刷新几次就可以在开发者工具中发现css中的几个文件,http://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/???.css ,这个就是它的span的class对应svg图中的汉字,对于这个对应关系的话,我没有用汉字识别,直接使用正则提取其开头,因为这个问题中,不止是css样式问题,还要svg图的连接,大家ctrl寻找下url就可以发现,其所在,一般都是4个连接,对应着不同的信息,点评数量呀(数字表),分类呀(字表),地址呀(2个字表),对于匹配的关系的话,每个人想法不一样,看你怎么匹配,匹配好了,

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值