python爬取大众点评某城市美食类数据

最新推荐文章于 2024-04-30 18:39:47 发布

猫先森_

最新推荐文章于 2024-04-30 18:39:47 发布

阅读量3.4k

点赞数 5

分类专栏： python爬虫文章标签： python 爬虫加密解密

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41259961/article/details/117524921

版权

python爬虫专栏收录该内容

1 篇文章 2 订阅

订阅专栏

前言

我一个朋友是做市场调查的，前段时间他想分析一下某个城市的餐饮或美食市场状况，找到我让我帮他采集一些相关数据。经过讨论我们觉得大众点评的数据挺适合的，大众点评是一款非常受大众喜爱的一个第三方的美食相关的点评网站，该网站的数据也就非常有价值。优惠，评价数量，好评度等数据也就非常受数据公司的欢迎。也记录一下过程。

1.确定爬取的URL

我们需要的是每一个美食分类下的每一个热门商圈对应的数据，例如下图茶亭世茂商圈的小吃快餐对应的数据。
分类和商圈样例.png
对比发现，每个分类ID和商圈ID的组合可以确定对应的URL的
URL组合样例.png
提取分类ID和商圈ID，得到的URL如下：
确定的URL.png

2.确定字段

如下这些数据是我们需要爬取的
需要爬取字段.png

3.解密及分析网页

大众点评的数据大部分都是有加密的
被加密.png
从右边的源码可以看到文字是经过加密的，可见的不是结果和返回的结果不一样的，想这些就需要解密。

接下来就是解密
是通过svg加密的。首先是要找到woff字体文件，

下载下来，然后用fontTools库转为xml文件
from fontTools.ttLib import TTFont
def get_xml(self):
font = TTFont(‘dzdp.woff’)
font.saveXML(‘dzdp.xml’)

可以看到对应的关系了，当然这个映射是经常变得，不能对着写。
接下来就是把加密的内容替换为对应的数据了（关键代码）

4.成果展示

关注

5
点赞
踩
65

收藏

觉得还不错? 一键收藏
3
评论
python爬取大众点评某城市美食类数据

我一个朋友是做市场调查的，前段时间他想分析一下某个城市的餐饮或美食市场状况，找到我让我帮他采集一些相关数据。经过讨论我们觉得大众点评的数据挺适合的，大众点评是一款非常受大众喜爱的一个第三方的美食相关的点评网站，从网站内可以推荐吃喝玩乐优惠信息，提供美食餐厅、酒店旅游、电影票、家居装修、美容美发、运动健身等各类生活服务，通过海量真实消费评论的聚合，帮助大家选到服务满意商家。因此，该网站的数据也就非常有价值。优惠，评价数量，好评度等数据也就非常受数据公司的欢迎。也记录一下过程。
复制链接

扫一扫

专栏目录

猫先森_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

21: 原创

117万+: 周排名

11万+: 总排名

2万+: 访问

: 等级

345: 积分

97: 粉丝

60: 获赞

26: 评论

193: 收藏

私信

关注

热门文章

分类专栏

最新评论

淘宝自动化登录，提供源码
一撇一捺/: 滴滴求一个
APP脱壳-安卓逆向
LoongLordGod: 你USB没有连接成功啊。
某物小程序的加密和解密分析
CSDN-Ada助手: 小程序技能树或许可以帮到你：https://edu.csdn.net/skill/mini_programs?utm_source=AI_act_mini_programs
tao系x-mini-wua、x-sign、x-sgext、x-umt
猫先森_: 参数加密不对导致的
tao系x-mini-wua、x-sign、x-sgext、x-umt
xingxveya: 大佬，请问一下，调用接口可以返回参数就是hook对了吗，但是我接口返回的参数去代去访问返回：非法请求签名，这是什么问题呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。