
爬虫知识星球
我们都知道现在知识星球里面的内容有很多的沉淀,但是我们并不能每次打开从头开始阅读到最后,虽然星主也会每隔一段时间对知识星球内容进行汇总,但还是有一定的遗留内容。
为了让自己对知识有个很好的把握,方便自己后期查询整理,今天先使用Java简单的使用爬虫,进行读取数据。
环境准备
我们使用的语言是Java8,开发工具是Idea,仓库管理使用ggithub,代码会存放到github上。
爬虫代码链接: https:// github.com/menhuan/note s/tree/master/code/codebase-master/onirigi-repile
如果需要直接使用的,需要自己把里面cookie改成自己的,并且处理下浏览头部信息。
星球准备
进行爬虫首先需要找到星球是按照什么登陆,是按照token还是按照cookie,还是按照session的方式来进行数据交互的。
关于以上三者的内容区别,可以参考我上一篇文章的链接。
找出来http设置的header
这次爬虫并没有设置模拟登陆的操作,只是根据访问具体链接来操作。
登陆星球后,找到链接,查看请求头里面的内容。