Python爬虫——urllib_ajax的get请求爬取豆瓣电影前十页

该文章展示了如何使用Python的urllib库来模拟AJAX请求,以获取豆瓣电影排行榜的前10页数据。通过分析URL参数,特别是start参数来实现分页,每页20条记录。代码创建了一个Request对象并发送GET请求,将响应内容保存为JSON文件。
摘要由CSDN通过智能技术生成

ajax: 就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互

对于ajax:

  1. 一定会有 url,请求方法(get, post),可能有数据
  2. 一般使用 json 格式
  • 打开豆瓣电影,F12打开控制台(我这里是科幻类排行榜)
    这是第一页
    在这里插入图片描述

第二页
在这里插入图片描述
第三页就不放了
得到一个规律start =(page-1)*20

import urllib.request
import urllib.parse

# 用函数封装
# 下载豆瓣电影前10页的数据
def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=17&interval_id=100%3A90&action=&'

    headers = {
        '',
    }
    data = {
        'start': (page - 1) * 20,
        'limit': 20
    }

    data = urllib.parse.urlencode(data)
    url = base_url + data

    # 请求对象定制
    request = urllib.request.Request(url, headers=headers)

    return request

# 获取响应数据
def get_content(request):
    response = urllib.request.urlopen(request)

    content = response.read().decode('utf-8')

    return content

# 下载数据
def down_load(page, content):
    with open('douban' + str(page) + '.json', 'w', encoding='utf-8') as fp:
        fp.write(content)

if __name__ == '__main__':
    start_page = 1
    end_page = 10
    for page in range(start_page, end_page+1):
        request = create_request(page)
        content = get_content(request)
        down_load(page, content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值