通过Github仓库链接爬取其star的数量
今天在处理Ghtorrent的projects数据表时,发现里面竟然没有star的数量,于是就想捣鼓着通过数据表里提供的链接把star数量爬下来。
没想到在爬取的过程中碰到了一个火狐浏览器的神坑,在这里写篇博客记录一下。
为了不失访问的普遍性,我把Ghtorrent提供的链接改成了访问原仓库的链接(原链接是这种形式 https://api.github.com/repos/owner_name/repository_name,改后的链接是这种形式 https://github.com/owner_name/repository_name)。原本的链接是可以通过爬取json文件来获得信息的,但是我这里就不写了。
// 需要导入的包
from lxml import etree
import requests
lxml是常用的爬虫解析包,requests是因为需要通过url进行访问。
接下来就得获取star数量对应的xpath的值了,右键检查元素,找到目标标签然后复制xpath的值。最终得到star数量所在<a>标签的xpath的值为:“/html/body/div[4]/div/main/div[2]/div/ul/li[2]/div/form[2]/a”。
于是便兴高采烈地开爬:
// 爬取u