python使用心得之获得github代码库列表

最新推荐文章于 2022-10-23 20:42:45 发布

abdfdgh

最新推荐文章于 2022-10-23 20:42:45 发布

阅读量415

点赞数

文章标签：对象索引 function 搜索 javascript

1.背景效果可以看下具体51搜索展示http://www.51bt.cc，结合Xunsearch全文检索技术，可以达到毫秒级的数据搜索

项目需求，要求获得github的repo的api，以便可以提取repo的数据进行分析。研究了一天，终于解决了这个问题，虽然效率还是比较低下。

因为github的那个显示repo的api，列出了每个repo的详细信息，而且是json格式的。现在貌似还没有找到可以分析多个json格式数据的方法，所以用的是比较蠢得splite加re的方法。如果大家有更好的方法，不发留言讨论！

2.代码

import re
import os

def GetUrl(num):
str = os.popen("curl -G https://api.github.com/repositories?since=%d"%(num)).read()
pattern = '"url"'
pattern1='repos'
urls=str.split(',\n')
for i in urls:
if pattern in i and pattern1 in i:
# text1=i.splite(':')
text=re.compile('"(.*?)"').findall(i)[1]
print text
if __name__=='__main__':
GetUrl(1000) 其中num的值指的是页面的id，我们可以做一个循环，不断增大num的值，就可以无限提取repo。因为github的api对于流量是有限制的，所以这么做是一个可行的方法。