网页中的代码来源一般是服务器将整个网页的数据全部返回,但这在访问量大的情况下会给服务器带来不小的压力,因此有些时候采用的是ajax,只给部分内容,其余的有关数据方面的信息只在用户需要时返回。由于ajax的异步的特性,所以不会影响到用户的访问体验。
有些网页内容使用AJAX加载,只要记得,AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了。“作为一名爬虫工程师,你最需要关注的,是数据的来源”。
ajax请求在前端中有两种表现形式,一种是在后台偷偷获取数据,另一种是在右侧进度条滑动到底部时进行数据的加载。
一、后台偷偷获取数据的形式
在此处以高德地图为例:
需要我们进入开发者模式找到network选项,找到获取城市天气信息的请求项,这个请求项是json类型,触发源头是xhr,将请求地址复制下来作为我们访问时的地址。
ajax获取城市数据
ajax获取城市天气数据
经过观察可以发现,全国所有高德提供服务的城市都会在一个json中被返回,因此可以获取到该json,解码后获取其中的信息。
"""文件名为‘高德城市分布’的py文件中的内容"""
import requests
import json
base_url = 'https://www.amap.com/service/cityList?'
#加上请求头,伪装成浏览器访问
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0'}
def city_code():
#获取响应信息
reponse = requests.get(url=base_url,headers=headers)
#取响应信息中的响应体并进行解码
contents = reponse.content.decode('utf-8')
#json都需要进行json解码,然后才可以进行下一步操作
contents = json.loads(contents)
#解码之后的json一般是字典与列表形式
citys = contents['data']['cityByLetter']
city_dict = {
}
for k,v in citys.items():
for code in v:
# print(code)
city_dict[code['name']] = code['adcode']
return city_dict
# print(city_dict)
if __name__ == '__main__':
print(city_code())
获取城市信息,经过观察可以发现,每当选择一个城市,都会在后台将该城市的编码加入到url中,进行获取城市天气的信息。
import requests
import json
import 高德城市分布
base_url =