通过Github仓库链接爬取其star的数量

最新推荐文章于 2023-03-07 14:36:48 发布

gu_lian

最新推荐文章于 2023-03-07 14:36:48 发布

阅读量1.1k

点赞数 2

文章标签： github xpath python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gu_lian/article/details/105166701

版权

在使用Python爬虫通过Github仓库链接获取star数量时，遇到Firefox浏览器导致的xpath问题。原本有效的xpath在爬取过程中返回空数据，经过排查发现网页在本地显示的xpath与在线不同。最终通过Chrome浏览器的xpath成功获取数据，建议在爬虫中优先使用Chrome的xpath表达式。

摘要由CSDN通过智能技术生成

通过Github仓库链接爬取其star的数量

今天在处理Ghtorrent的projects数据表时，发现里面竟然没有star的数量，于是就想捣鼓着通过数据表里提供的链接把star数量爬下来。

没想到在爬取的过程中碰到了一个火狐浏览器的神坑，在这里写篇博客记录一下。

为了不失访问的普遍性，我把Ghtorrent提供的链接改成了访问原仓库的链接（原链接是这种形式 https://api.github.com/repos/owner_name/repository_name，改后的链接是这种形式 https://github.com/owner_name/repository_name）。原本的链接是可以通过爬取json文件来获得信息的，但是我这里就不写了。

// 需要导入的包
from lxml import etree
import requests

lxml是常用的爬虫解析包，requests是因为需要通过url进行访问。

接下来就得获取star数量对应的xpath的值了，右键检查元素，找到目标标签然后复制xpath的值。最终得到star数量所在<a>标签的xpath的值为：“/html/body/div[4]/div/main/div[2]/div/ul/li[2]/div/form[2]/a”。
在这里插入图片描述于是便兴高采烈地开爬：

// 爬取u

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

gu_lian CSDN认证博客专家 CSDN认证企业博客

码龄8年

2: 原创

45万+: 周排名

181万+: 总排名

1527: 访问

: 等级

35: 积分

3: 粉丝

2: 获赞

3: 评论

0: 收藏

私信

关注

热门文章

最新评论

通过Github仓库链接爬取其star的数量
urnotlappland: 似乎用不了了报错[code=plain] stars_num = (html_data[0].replace("\n","").replace(" ","")) IndexError: list index out of range [/code]
pytorch笔记
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

pytorch笔记

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。