爬虫学习-3（动态页面爬取-Ajax）

最新推荐文章于 2022-04-07 21:47:18 发布

a_b_c_007

最新推荐文章于 2022-04-07 21:47:18 发布

阅读量111

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/a_b_c_007/article/details/118443319

版权

笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

所谓动态页面，简单来说就是该页面的数据在你访问的时候并不是一下子给你，而是随着你的浏览逐渐展现，譬如豆瓣电影分类中的页面，数据会随着你的浏览逐渐呈现，并没有页面的跳转过程。所以我们要爬取的就是服务器返回的链接(画红线的链接)，并不能直接爬取网页链接。

from urllib.request import Request,urlopen
from fake_useragent import UserAgent
from urllib.parse import urlencode

base_url="https://movie.douban.com/j/chart/top_list?type=24&interval_id=100:90&action=&start={}&limit=20"
for i in range(100):
    headers={
        "User-Agent":UserAgent().chrome
    }
    url=base_url.format(i*20)
    url=Request(url,headers=headers)
    response=urlopen(url)
    info=response.read().decode()
    if info==""or info==None:
        break
    print(info)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a_b_c_007

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习-3（动态页面爬取-Ajax）

所谓动态页面，简单来说就是该页面的数据在你访问的时候并不是一下子给你，而是随着你的浏览逐渐展现，譬如豆瓣电影分类中的页面，数据会随着你的浏览逐渐呈现，并没有页面的跳转过程。所以我们要爬取的就是服务器返回的链接(画红线的链接)，并不能直接爬取网页链接。from urllib.request import Request,urlopenfrom fake_useragent import UserAgentfrom urllib.parse import urlencodebase_url="
复制链接

扫一扫