最新美团网数据抓取实战。

写在前面的话,还处于爬虫初期,很多东西一知半解,边学边记录,边学边做。代码写的自己都看不下去了。。。。
本期重点,美团网商铺数据,暂只抓了美食商家数据。先上战果,暂只抓了10万条,一小时左右,未对数据去重。大概思路如下,先抓取各个省份城市,然后获取其经纬度,最后构造参数,翻页拿取数据。抓取结果

  1. 获取各个城市名字,id。第一个地址(https://www.meituan.com/ptapi/getprovincecityinfo/)
  2. 获取各个城市经纬度,构造参数。第二个地址(https://apis.map.qq.com/jsapi?qt=poi&wd=西安&pn=0&rn=10&rich_source=qipao&rich=web&nj=0&c=1&key=FBOBZ-VODWU-C7SVF-B2BDI-UK3JE-YBFUS&output=jsonp&pf=jsapi&ref=jsapi&cb=qq.maps._svcb3.search_service_0&)
  3. 构建请求参数,翻页获取数据。第三个地址(https://www.meituan.com/meishi/api/poi/getNearPoiList?offset=0&limit=10&cityId=1&lat=39.950256&lng=116.34784)此地址浏览器拿不到数据,需要用到postman测试,是个坑
    抓包的查找接口的过程如下
    再切换城市栏目可以通过chrome抓包拿到所有城市的id,name,便于我们下一步去获取经纬度参数,地址见第一条
    在这里插入图片描述
    然后到首页点击美食,随便点进一个商家 ,抓包拿到下面信息。

    postman测试参数如下图。
    在这里插入图片描述
    有个小坑需要注意,headrs请求头如下图
    在这里插入图片描述
    返回数据如下图
    在这里插入图片描述
    至此我们已经知晓大概流程。以及关键参数,下面就是代码实现模块。代码中涉及到的数据库连接方式。查询、插入操作都需要重写,代码中为自己封装的一些默认连接。
import requests
import json
import re
import time
import logging
logging.captureWarnings(True)
from multiprocessing import Pool
class MeiTuan:

    def __init__(self):
        self.headers= {
   
        "Content-Type": "application/json;charset=utf-8",
        "Host": "www.meituan.com",
        "Referer": "https://www.meituan.com/meishi/4813791/",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
        }
        self.re_w_c = re.compile(r'"city":(.*?)"area')
        self.collect = Mongo(db_name='meituan', collecttion_name='shop')#自己写的mongo连接,需要做更改


    def all_response(self,url):
    """一个时常用到的请求函数
    """
        response =
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python数据抓取技术与实战 PDF是一本介绍利用Python进行数据抓取的技术和实践的书籍。数据抓取是指通过编程手段从互联上获取数据的过程。而Python作为一种简单易学的编程语言,具备强大的数据处理和络操作能力,因此被广泛应用于数据抓取领域。 这本书主要分为两个部分,第一部分是Python数据抓取技术的基础知识介绍。包括如何使用Python进行页解析、络请求、Cookies管理、代理设置等内容,以及常用的数据抓取库和工具的使用方法。通过这些基础知识的学习,读者可以掌握Python进行数据抓取的基本能力。 第二部分是数据抓取技术在实践中的应用。书中涵盖了各种实际场景中常见的数据抓取案例,例如爬取电商商品信息、抓取新闻站的新闻数据抓取社交媒体的用户信息等。每个案例都会详细介绍实现的思路和具体步骤,并配有代码示例和实际运行结果。通过这些实战案例的学习,读者可以将抽象的数据抓取技术应用到具体的数据获取任务中。 本书的特点是结合理论与实践,既讲解了数据抓取的原理和技术,又通过实际案例进行实战演练。同时,书中的内容浅显易懂,适合初学者入门学习。此外,书中还提供了丰富的参考资料和学习资源,方便读者进一步深入学习和实践。 总之,Python数据抓取技术与实战 PDF是一本帮助读者掌握使用Python进行数据抓取的实用指南,旨在帮助读者通过编程获取所需数据,并应用到实际工作中。是学习Python数据抓取的必备参考书籍。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值