python爬虫:大众点评商家信息 9012 10/23

昨天看了下这个网站,了解了下,挺好玩的,今天写了代码,运行的话,没太大问题,主要的问题,就是大众点评的验证码问题,以及其汉字svg的问题,对于大众点评,相信很多人都想要其数据,说说抓取思路吧,搜索后的网页,大致是这样的http://www.dianping.com/guangzhou/ch10/g110,对于其店铺的信息,都是svg图截图的数据,大家多刷新几次就可以在开发者工具中发现css中的几个文件,http://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/???.css ,这个就是它的span的class对应svg图中的汉字,对于这个对应关系的话,我没有用汉字识别,直接使用正则提取其开头,因为这个问题中,不止是css样式问题,还要svg图的连接,大家ctrl寻找下url就可以发现,其所在,一般都是4个连接,对应着不同的信息,点评数量呀(数字表),分类呀(字表),地址呀(2个字表),对于匹配的关系的话,每个人想法不一样,看你怎么匹配,匹配好了,

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值