在今日头条收藏了很多视频,文章什么的,通过头条的界面查看相当不方便,由于产生了要保存到本地的想法。
由是用python写了一个爬虫,可以抓取个人的今日头条的收藏夹内的内容到本地,并保存为excel文件和html文件,方便检阅。同时支持后续更新,自动添加新的收藏夹条目,不会每次都去完整抓取。
不抓不知道,一抓吓一跳,居然有4000多条数据,晕。
总述
登录
登录使用了cookie的方式,即是需要从浏览器里复制出已登录用户的cookie信息,供python使用
数据结构
class Record:
'一条收藏夹记录'
def __init__(self,title,url,tag,repin_time,