写谷歌浏览器插件的时候怎么获取到newwork中的请求的response信息_Python爬虫实战,采集高德地图信息...

v2-06a231aa562b2649dce1deab5faf8a18_1440w.jpg?source=172ae18b

目录

  • 推荐
  • 一、 分析网页结构
  • 二、拿到相关网址
  • 三、代码实现
  • 3.1 查询所有城市名称和编号3.2 根据编号查询天气
  • 四、完整代码
  • 五、保存结果

一、 分析网页结构

以往几篇都是介绍的传统的静态界面的爬取,这次博主介绍一个爬取动态网页的超简单的一个小demo。

很多人学习python,不知道从何学起。

很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。

很多已经做案例的人,却不知道如何去学习更加高深的知识。

那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤

Q-Q-群-:961562169

v2-44d7ba8c6a76b09d4a9a46870f032a83_b.jpg


说到动态网页,你对它了解多少呢?

如果对动态网页不认识的童鞋,博主在此给出链接,可以看百度百科的详细解析动态网页_百度百科以及小马夫的静态页面和动态页面的区别

v2-368774ef5b3d26873c1f2b80f97f10dc_b.jpg


不要怪博主没有进行讲解,因为博主本人对于动态网页的概念也不是太过了解。等到博主整理好思绪的时候,博主会专门写一篇博文的 -。-

简单来说,要获取静态网页的网页数据只需要给服务器发送该网页url地址就行,而动态网页的数据因为是存储在后端的数据库里。所以要获取动态网页的网页数据,我们需要向服务器发送请求文件的url地址,而不是该网页的url地址。

,下面开始进入正题。

本篇博文就以高德地图展开: https://www. amap.com/

v2-04c73c1602256f4bed794be6f611e64b_b.jpg


在打开后,我们发现有一堆div标签,但是并没有我们需要的数据,这个时候就可以判定其为动态网页,这个时候,我们就需要找接口

v2-6d4674f52535886d34c1c44fe1a061be_b.jpg

c8ef65ee26d559dab964c930182fca27.png


点击网络标签,我们可以看到网页向服务器发送了很多请求,数据很多,找起来太费时间

我们点击XHR分类,可以减少很多不必要的文件,省下很多时间。

XHR类型即通过XMLHttpRequest方法发送的请求,它可以在后台与服务器交换数据,这意味着可以在不加载整个网页的情况下,对网页某部分的内容进行更新。也就是说,向数据库请求然后得到相应的数据是XHR类型的

然后我们就可以在XHR类型下开始一个个找,找到了如下的数据

83b106616bc02903f18648af84f783e0.png


通过查看Headers获得URL

68c3a90a7be24c2c5ac509bbbb1398ed.png


打开之后,我们发现其为近两天的天气情况。

e39eaeb7ef51b6aa20b24541896c76e6.png

打开后我们可以看到上面的情况,这是个json格式的文件。然后,它的数据信息是以字典的形式来保存的,而数据是都保存在“data”这个键值里面。

,找到了json数据,我们来对比下看是否是我们找的东西

16e4090e4b69fbdc741d072db529f4c4.png


通过对比,数据正好对应,那就说明咱们已经拿到数据了。

二、拿到相关网址

'''
查询当前地点天气的url:https://www.amap.com/service/cityList?version=2020101417
各城市对应code的url:https://www.amap.com/service/weather?adcode=410700

备注:这两个url可以从Network中查看到
'''

4976395141f4b1dd8fdea5a2dcff0410.png


,相关网址我们已经拿到了,下面就是具体的代码实现了。至于怎么实现,

我们知道json数据可以使用response.json()转字典,然后操作字典。

d81753da92cd68d275ff9daf6aa239eb.png

三、代码实现

知道了数据的位置后,我们开始来写代码。

3.1 查询所有城市名称和编号

先抓取网页,通过添加headers来伪装成浏览器来对数据库地址进行访问,防止被识别后拦截。

url_city = "https://www.amap.com/service/cityList?version=202092419"

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
}

city = []
response = requests.get(url=url_city, headers=headers)
content = response.json()
print(content)

25e3abdf65121b62f5f0fa6c82a3189a.png


得到我们想要的数据之后,我们通过查找可以发现cityByLetter里的编号和名称是我们需要的,那么我们就可以盘它了。

39a7f6d27cc496038294b1ca72d098af.png

39a7f6d27cc496038294b1ca72d098af.png
if "data" in content:
        cityByLetter = content["data"]["cityByLetter"]
        for k,v in cityByLetter.items():
            city.extend(v)
    return city

b1f816a51b2d365224e783061e30c714.png

3.2 根据编号查询天气

得到了编号和名称,下面肯定就是查询天气呀!

先来看接口

1b542bb1b17417aaf7c51f957d6bac44.png


通过上图,可以确定最高温度,最低温度等内容。那么就以此来进行数据爬取。

url_weather = "https://www.amap.com/service/weather?adcode={}"

response = requests.get(url=url_weather.format(adcode), headers=headers)
content = response.json()
item["weather_name"] = content["data"]["data"][0]["forecast_data"][0]["weather_name"]
item["min_temp"] = content["data"]["data"][0]["forecast_data"][0]["min_temp"]
item["max_temp"] = content["data"]["data"][0]["forecast_data"][0]["max_temp"]
print(item)

ce0b58afd0d9fd52b29f6275fac0f2d6.png

,我们的设想已经实现了。

146e6bb04339c7eb69cfa1cddbfc7a7e.png

四、完整代码

# encoding: utf-8
import requests


url_city = "https://www.amap.com/service/cityList?version=202092419"
url_weather = "https://www.amap.com/service/weather?adcode={}"

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
}


def get_city():
    """查询所有城市名称和编号"""
    city = []
    response = requests.get(url=url_city, headers=headers)
    content = response.json()

    if "data" in content:
        cityByLetter = content["data"]["cityByLetter"]
        for k, v in cityByLetter.items():
            city.extend(v)
    return city


def get_weather(adcode, name):
    """根据编号查询天气"""
    item = {}
    item["adcode"] = str(adcode)
    item["name"] = name

    response = requests.get(url=url_weather.format(adcode), headers=headers)
    content = response.json()
    item["weather_name"] = content["data"]["data"][0]["forecast_data"][0]["weather_name"]
    item["min_temp"] = content["data"]["data"][0]["forecast_data"][0]["min_temp"]
    item["max_temp"] = content["data"]["data"][0]["forecast_data"][0]["max_temp"]

    return item


def save(item):
    """保存"""
    print(item)
    with open("./weather.txt","a",encoding="utf-8") as file:
        file.write(",".join(item.values()))
        file.write("n")


if __name__ == '__main__':
    city_list = get_city()
    for city in city_list:
        item = get_weather(city["adcode"],city["name"])
        save(item)

五、保存结果

7031c13e32754d3e16437cfc2d211d5c.png

181d789933cb90308a46581bd937a24d.png

美好的日子总是短暂的,虽然还想继续与大家畅谈,但是本篇博文到此已经结束了,如果还嫌不够过瘾,不用担心,我们下篇见!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值