知乎爬虫之1:开篇序言

5 篇文章 0 订阅

本文由博主原创,转载请注明出处,原文链接:我的博客-知乎爬虫之开篇序言
在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。
那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。

本文由博主原创,转载请注明出处,原文链接:sweets.cf
git爬虫项目地址(关注和star在哪里~):https://github.com/MatrixSeven/ZhihuSpider

1. 预计可视化部分包括

  1. 人物关系可视化
  2. 人员地理分布可视化
  3. 人员大学分布可视化
  4. 男女比例可视化
  5. 用户点赞可视化

2. 预计内容和目录

  1. 开篇感言
  2. 爬虫流程设计
    1. 如何过滤重复数据
    2. 如何在爬取时创建人物关系
  3. 登陆知乎
    1. 分析请求
    2. 模拟请求
    3. 登陆成功
  4. 抓取页面数据
    1. jsoup抽取页面内容
  5. 优化
    1. 使用多线程加速
    2. 使用队列减少数据库访问
    3. 实现LRU提高缓存命中率
  6. 基于SpringCloud的简单应用
    1. 介绍
    2. 简单配置
  7. 扩展内容
    1. 整合Mybatis
    2. 编写Jsonp跨域请求API
  8. 走起苦逼的前端
    1. 使用Bootstrop布局
    2. 引入ECharts图形库
  9. 再见,吹牛结束。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值