开源社区活跃度分析——api.github.com的使用

目录

前记:

正文——API接口的使用:

少踩坑Tips:


作业Proposal开源社区活跃度分析Proposal(北航开源软件开发导论第三次作业)_Smily^-^的博客-CSDN博客_开源社区活跃

前记

GitHub提供了api接口,直接返回json,方便数据采集,但这是有限制的,未验证用户每小时可访问60次,验证用户每小时可访问5000次,超过次数会报错403,爬虫戛然而止。

验证方法官方文档:Authentication - GitHub Docs

正文——API接口的使用

官方文档:GitHub REST API - GitHub Docs

仓库数据收集常用url: 

# 获取commit列表:
https://api.github.com/repos/{owner}/{repo_name}/commits

# 获取issue列表:
https://api.github.com/repos/{owner}/{repo_name}/issues

# 获取(issue的)comment列表:
https://api.github.com/repos/{owner}/{repo_name}/issues/comments

# 获取Pr列表:
https://api.github.com/repos/{owner}/{repo_name}/pulls/?state=closed

# 获取Fork列表:
https://api.github.com/repos/{owner}/{repo_name}/forks/

# 获取事件列表:
https://api.github.com/repos/{owner}/{repo_name}/events

# 获取贡献者列表:
https://api.github.com/repos/{owner}/{repo_name}/contributors_url

少踩坑Tips

  • 默认情况下,一次,也就是一页返回三十条数据,所以上述url的结果只是前三十条,如果数据量比较大,应该需要考虑分页爬取,即结尾加
?&page=%d&per_page=100
  •  对于issue之类可能有open和closed两种状态的,会默认只返回open状态的,如有收集closed状态的需要,要在url中说明
?state=closed
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值