Python学习之爬虫Ajax

最新推荐文章于 2024-03-23 16:15:48 发布

冥想10分钟大师

最新推荐文章于 2024-03-23 16:15:48 发布

阅读量364

点赞数 1

分类专栏：爬虫基础

本文链接：https://blog.csdn.net/qq_31235811/article/details/89104956

版权

爬虫基础专栏收录该内容

8 篇文章 0 订阅

订阅专栏

今日头条网页数据也是异步加载的，搜索：数据，F12，向下翻页，在XHR查找Ajax请求，果然找到了它，网页规律url中count=从20，40，60变化，一个for循环搞定，其他的就和普通网页一样了，json格式的网页更好解析

在这里插入图片描述

import requests

def get_page():
    for i in range(20,120,20):
        #构建url
        url = 'https://www.toutiao.com/api/search/content/?aid=24&app_name=web_search&offset=40&format=json&keyword=%E7%BE%8E%E5%A5%B3&autoload=true&count={}&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis&timestamp=1554722202686'.format(str(i))
        try:
            res = requests.get(url)
            if res.status_code == 200:
                parse(res.json())
        except requests.ConnectionError:
            return None

def parse(json):
    if json.get('data'):
        for item in json.get('data'):
            title = item.get('title')
            image_url = item.get('image_url')
            print(title,image_url)

def main():
    get_page()

if __name__ == '__main__':
    main()

冥想10分钟大师

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python学习之爬虫Ajax

今日头条网页数据也是异步加载的，搜索：数据，F12，向下翻页，在XHR查找Ajax请求，果然找到了它，网页规律url中count=从20，40，60变化，一个for循环搞定，其他的就和普通网页一样了，json格式的网页更好解析import requestsdef get_page(): for i in range(20,120,20): #构建url ...
复制链接

扫一扫

专栏目录