python爬虫爬取大众点评店铺简介信息

写作目的:

今天帮朋友一个忙,要爬取一些大众点评上的数据。结果发现大众点评的防爬机制还挺多的,记录一下自己踩的坑。

爬取目标

主要是通过分类和地区爬取店铺简介中的名称,地址,人均价格,各种评价分数和评价数
alt

大众点评的保护机制

主要有两点
1.源码里加入了css反爬机制,主要是字体加密
2.对IP地址的限制,程序自动爬取大概十几页会断一下,目测应该是大众限制了一段时间内单IP访问量不能突破某一阈值。不过因为是爬取简介页面,所以手动验证一下也可以,没有像爬具体页面那样的封IP,有条件的也可以用IP池换IP访问。

应对方法

破解css加密机制参考了Python爬虫如何破解css加密
根据这篇文章建立字典后,对源码中的加密字符进行替换,然后通过正则匹配得到自己想要的部分



	tree=etree.HTML(rep)
    li_list=tree.xpath('//div[@class="content"]/div/ul/li')
    for li in li_list:
        title = li.xpath('.//div[@class="tit&
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值