github用户followers分析

最新推荐文章于 2024-06-24 09:39:17 发布

Weikunkun_

最新推荐文章于 2024-06-24 09:39:17 发布

阅读量2.3k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_35042679/article/details/80540672

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

爬的是Miguel Grinberg 因为自己的followers太少了

再次打个广告 欢迎来踩我的个人博客
个人博客

0x01 爬取用户信息

用户名称
用户所在位置
用户Repositories、Stars、Followers、Following
去年一年的贡献量

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-geITb2v3-1589990123733)(http://p39e7cgx2.bkt.clouddn.com/github-%E4%BE%8B%E5%AD%90.png)]

Ubuntu上的图片编辑不会用就没有在图片上进行编辑…（⊙＿⊙；）…

刚开始我记得之前按照Python编程从入门到实践来爬的时候用的是Github的api 但是试了之后发现有一些问题

API请求频率有限制无法通过多线程获取批量的用户信息
无法获取用户过去一年的contributions

爬虫的步骤其实是老套路

先获取目标用户Miguel Grinberg 的所有followers
根据follower构造该用户的URL遍历所有用户
提取所需信息
数据清洗
EDA

0x02 环境

Re
多进程
Requests
Python3.5
pyecharts

0x03分析结果

在爬完的时候共有4064位followers

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7tsq2cxs-1589990123735)(http://p39e7cgx2.bkt.clouddn.com/github-%E7%BB%9F%E8%AE%A1.png)]

用户地理位置词云

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pbRzodV7-1589990123739)(http://p39e7cgx2.bkt.clouddn.com/github-places.jpg)]

看来关注大神的人主要分布在中国和印度 在中国关注人主要还是居住在北京 嗯~~~ 怪不得北京的python岗位那么多工资那么高

def plot_positon():
    """
    graph position
    :return: 
    """
    df = pd.read_csv(data_path)
    data_list = list(df['position'])
    data_pos = [pos for pos in data_list if str(pos) != 'nan']
    #中文转拼音
    places = []
    for row in data_pos:
        place = ''.join(lazy_pinyin(row))
        places.append(place)

    wordcloud = WordCloud(background_color='white',
                          width=1024,
                          height=768,
                          margin=2,
                          max_font_size=300).generate(str(places)) #转为str防止报错
    wordcloud.to_file('templates/github-places.jpg')
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show()

用户repositories分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sHDBdchJ-1589990123742)(http://p39e7cgx2.bkt.clouddn.com/github-repositories.png)]

出于好奇点开了几位repositories超过1000的大兄弟的主页嗯看来还是fork的多哇有一位大兄弟甚至有13100个repositories不过我再去搜索的时候就没有这位大大大兄弟了
用户stars分析

在这里不得不说点击star是一个好习惯毕竟都是耗了一定时间撸的代码觉得好玩儿就点一个呗

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZhNvvmJS-1589990123744)(http://p39e7cgx2.bkt.clouddn.com/github-stars.png)]

然后我发现了一位老铁是个star狂魔angusshire 217000个赞 Σ(っ °Д °;)っ嗯~~~ 真是个好习惯啊！！！
用户followers分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jkZzVvls-1589990123745)(http://p39e7cgx2.bkt.clouddn.com/github-followers.png)]

嗯还是在1~10的人数居多啊这让我想到了当初有同学刚开github的时候到处问人有没有github 有github就强行让关注ヽ(*。>Д<)o゜然后仔细看超过1000的有6位大牛哇咔咔有大牛别拉着我我要去关注一波(/▽＼)
用户following分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1TmhFVRq-1589990123747)(http://p39e7cgx2.bkt.clouddn.com/github-following.png)]

嗯还是一样1-10的人数居多不过还有超过1000的是个什么情况嗯~~~ 还是这位点赞狂魔大兄弟 angusshire 不过让我好奇的是为什么他自己的repositories量这么少但是followers那么多

过去一年用户contributions

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gd2klj4T-1589990123748)(http://p39e7cgx2.bkt.clouddn.com/github-contributions.png)]

嗯可以看到大多数人的活跃度在1-50之间那么为什么100-500之间会出现陡增嘞会不会是每天一点绿的重度用户譬如这种

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lFtcbkDl-1589990123749)(http://p39e7cgx2.bkt.clouddn.com/github-show.png)]

def plot_bar(data,name):
    """
    graph
    :return: 
    """
    # print(df[:1])
    data_list = list(data[name]) #转化为列表方便分析
    # print(data_list[:10])
    print(len(data_list))
    print('max {} = {}'.format(name,max(data_list)))
    labels = ['00~00','01-10','11-50','51-100','101-500','501-1000','>1000']
    sizes = []
    sizes.append(len([count for count in data_list if count == 0]))
    sizes.append(len([count for count in data_list if 10>= count> 0]))
    sizes.append(len([count for count in data_list if 50>= count > 10]))
    sizes.append(len([count for count in data_list if 100>= count > 50]))
    sizes.append(len([count for count in data_list if 500>= count > 100]))
    sizes.append(len([count for count in data_list if 1000>= count > 500]))
    sizes.append(len([count for count in data_list if count > 1000]))
    bar = Bar(name,'by KongWiKi')
    bar.add('',labels,sizes,is_lable_show=True,mark_line=['max','min'])
    bar.render('templates/{}.html'.format(name))
def main():
    df = pd.read_csv(data_path)
    features = ['stars','followers','following','repositories','contributions']
    for i in features:
        print(i)
        plot_bar(df,i)

    plot_positon()

if __name__ == '__main__':
    main()

0x04 总结

不得不说 pyecharts真心好要比之前做分析的时候flask+echarts来的要快好多

不玩儿去学习了

Weikunkun_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
github用户followers分析

爬的是Miguel Grinberg 因为自己的followers太少了再次打个广告欢迎来踩我的个人博客个人博客0x01 爬取用户信息用户名称用户所在位置用户Repositories、Stars、Followers、Following去年一年的贡献量Ubuntu上的图片编辑不会用就没有在图片上进行编辑…（⊙＿⊙；）… 刚开始我记得之前按照Pyth...
复制链接

扫一扫