抓取今日头条的个人收藏夹目录

本文介绍如何使用Python爬虫抓取个人在今日头条的收藏夹内容,包括登录、数据结构、抓取、分析和保存步骤。通过获取浏览器cookie进行登录,利用urllib库抓取数据,json库解析JSON,xlsx库保存为Excel文件。由于访问限制,频繁抓取可能导致被封,需注意间隔。总计约200行代码,展示了Python爬虫的实用性。
摘要由CSDN通过智能技术生成

在今日头条收藏了很多视频,文章什么的,通过头条的界面查看相当不方便,由于产生了要保存到本地的想法。
由是用python写了一个爬虫,可以抓取个人的今日头条的收藏夹内的内容到本地,并保存为excel文件和html文件,方便检阅。同时支持后续更新,自动添加新的收藏夹条目,不会每次都去完整抓取。

不抓不知道,一抓吓一跳,居然有4000多条数据,晕。

总述

登录

登录使用了cookie的方式,即是需要从浏览器里复制出已登录用户的cookie信息,供python使用

数据结构

class Record:
    '一条收藏夹记录'
    def __init__(self,title,url,tag,repin_time,
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值