Python用数万条数据带大家看看到底是哪些人在反对996~-CSDN博客

本文链接：https://blog.csdn.net/Gtieguo/article/details/123182736

开发环境

Python版本：3.7.8
相关模块：
requests模块；
tqdm模块；
pyfreeproxy模块；
pyecharts模块；
以及一些python自带的模块。

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

数据爬取

数据爬取部分，我们利用Github官方提供的API来实现：

https://api.github.com/repos/{username}/{reponame}/stargazers?page={page}

另外，根据官方的接口文档，我们需要申请一个access_token，在请求头中添加：

headers = {
    'Accept': 'application/vnd.github.v3+json',
    'Authorization': f'token {access_token}',
}

否则的话，我们每个小时可以获取到的数据将会少很多。access_token的获取方式如下图所示：
在这里插入图片描述
数据爬取的核心代码如下：

'''run'''
def run(self):
    # 构造所有star的人的url
    star_urls = []
    for page in range(self.num_pages):
        url = self.api_url.format(self.username, self.reponame, page)
        star_urls.append(url)
    # 爬取所有用户链接
    user_info_urls, session = [], requests.Session()
    for url in tqdm(star_urls):
        while True:
            headers = self.getheaders()
            try:
                response = session.get(url, headers=headers)
                response_json = response.json()
                break
            except:
                session = requests.Session()
        if 'message' in response_json and \
            response_json['message'] == 'In order to keep the API fast for everyone, pagination is limited for this resource. Check the rel=last link relation in the Link response header to see how far back you can traverse.':
            break
        for item in response_json:
            if not isinstance(item, dict): 
                continue
            if ('url' in item) and (item['url'] not in user_info_urls):
                user_info_urls.append(item['url'])
    self.save(user_info_urls, 'user_info_urls')
    print(f'[INFO]: 共获得{len(user_info_urls)}条用户信息链接')
    # 爬取所有用户信息
    user_infos, session = [], requests.Session()
    for url in tqdm(user_info_urls):
        while True:
            headers = self.getheaders()
            try:
                response = session.get(url, headers=headers)
            except:
                session = self.getsession()
                continue
            if response.status_code == 200 and 'id' in response.json(): 
                break
            elif response.json()['message'] == 'Not Found':
                response = None
                break
            else:
                session = self.getsession()
        if response is None: continue
        info = response.json()
        user_infos.append(info)
    print(f'[INFO]: 共获得{len(user_infos)}条用户数据')
    self.save(user_infos, 'user_infos')