基于 webmagic 的知乎爬取[GitHub]

ZhiHuCrawler(基于 webmagic 的知乎爬取)

简介

GitHub 地址
出于兴趣想要分析一下知乎,所以爬取了一些知乎的数据。爬取的数据主要有三种:
- 某种话题(如互联网、软件工程)下的问题
- 知乎大V(如张佳玮、李开复等)
- V回答

模块

主要分两个模块:

  1. 话题问题爬取ZhiHuTopics package)

该模块主要爬取某话题下的 Question ,比如爬取 软件工程 下的问题。爬取的结果如下:

url:    https://www.zhihu.com/question/66519221
标题: 腾讯开发微信花了多少钱?真的技术难度这么大吗?难点在哪里?
关注者:    2955
浏览人数:   1288594

】:这里由于我不需要 问题回答 ,故没有爬取 用户回答 。其实,在此基础上修改一下很容易得到 用户回答 内容。

该模块下爬取内容的输出为 txt 文件。

该模块的使用案例,请参考 Crawler 类中 main() 方法。

  1. 大v爬取 (VAnalysis package)【未添加注释。。。】

该模块爬取的数据可分为两类:

知乎大v 【案例】: VUserCrawler 类中 main()

users

V回答 【案例】: VAnswerCrawler 类中 main()

answers

该模块爬取的结果输出到 MySQL 数据库。其中,使用了 Hibernate 方便、优化了输出。

相关

  • 如果需要修改,请先了解 WebMagicWebMagic 是一个开源的Java垂直爬虫框架。

  • 为防止知乎锁 IP ,爬取速度不是很快。我在爬 top100大v的回答(8w+数据) 时大约使用了 2天 17小时

关于

IntelliJ IDEA 2017.1
Build #IU-171.3780.107, built on March 22, 2017
Licensed to kissx

JRE: 1.8.0_112-release-736-b13 amd64
JVM: OpenJDK 64-Bit Server VM by JetBrains s.r.o
Windows 10 10.0
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值