python利用Ajax爬取今日头条街拍

最新推荐文章于 2024-05-06 14:30:40 发布

fangqileo

最新推荐文章于 2024-05-06 14:30:40 发布

阅读量1.1k

点赞数 3

文章标签： python ajax 爬虫

本文链接：https://blog.csdn.net/fangqileo/article/details/120634672

版权

相信各位学习爬虫的老铁们一定看过崔大佬的爬虫教学。在第六章利用Ajax爬取今日头条街拍图片这部分，由于网站已变更，会发现书中具体代码无法执行。本人作为爬虫新手，用了3小时时间自行摸索该部分，并对相应内容进行调整，最终【成功爬取】，在这里跟大家分享一下我踏过的各种大坑。

首先模块倒入

import requests 
import urllib.parse
from urllib.parse import urlencode
import json
import os
from hashlib import md5

爬虫三步走，获取特面--分析页面--存储信息

首先，获取页面的函数设置。这里值得注意的是headers部分要添加cookies，内容不做赘述。

#需要添加cookies，不然尽管code=200，页面返回的内容也是登陆界面
headers = {
	'Host': 'so.toutiao.com',
	'Referer':'https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json=%7B%22from_search_id%22%3A%2220211007094012010150134167128A76C3%22%2C%22origin_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%2C%22image_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%7D&source=input',
	&

最低0.47元/天解锁文章

fangqileo

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python利用Ajax爬取今日头条街拍

相信各位学习爬虫的老铁们一定看过崔大佬的爬虫教学。在第六章利用Ajax爬取今日头条街拍图片这部分，由于网站已变更，会发现书中具体代码无法执行。本人作为爬虫新手，用了3小时时间自行摸索该部分，并对相应内容进行调整，最终【成功爬取】，在这里跟大家分享一下我踏过的各种大坑。首先模块倒入import requests import urllib.parsefrom urllib.parse import urlencodeimport jsonimport osfrom hashlib impo
复制链接

扫一扫