AI周报丨2021 GitHub年度报告:7300万开发者,最爱的依旧是Javascript

- 热门论文 -

题目:XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale

本文介绍了基于WAV2VEC2.0的大规模跨语言语音表征学习模型XLS-R。我们在128种语言的近50万小时的公开可用语音音频上训练具有多达2B个参数的模型,这比已知的最大的先前工作多了一个数量级的公开数据。我们的评估涵盖广泛的任务、领域、数据体系和语言,包括高资源和低资源。在CoVoST-2语音翻译基准测试中,我们在21个英语翻译方向上平均提高了7.4 BLEU。对于语音识别,XLS-R比之前最著名的BABEL、MLS、CommonVoice以及VoxPouli的工作有所改进,平均降低了14-34%的错误率。XLS-R还设置了VoxLingua107语言识别的最新技术。此外,我们还表明,在模型足够大的情况下,跨语言预训练在将英语语音翻译成其他语言时的效果优于纯英语预训练,这种设置有利于单语预训练。我们希望XLS-R能够帮助改善世界上更多语言的语音处理任务。

- 热门工具 -

1. NLTK

NLTK(Natural Language Toolkit),自然语言处理工具包,在NLP(自然语言处理)领域中,最常使用的一个Python库。自带语料库,词性分类库。自带分类,分词功能。

此工具包兼容极链AI云平台,相关地址:

https://github.com/hb20007/hands-on-nltk-tutorial

2. CoreNLP

Corenlp提供了一系列用Java编写的自然语言分析工具。它可以采取原始的人文语言文本输入并给出基本形式的单词,他们的言论,无论是公司,人类等的名称,均衡和解释日期,时间和数字数量,标志着句子的结构在短语或单词依赖项方面,指示哪些名词短语是指同一实体。它最初是为英语开发的,但现在还提供了不同于(现代标准)阿拉伯语,(大陆)中文,法语,德语和西班牙语的不同水平。

此工具包兼容极链AI云平台,相关地址:

https://github.com/stanfordnlp/CoreNLP

- 大厂动态 -

2021 GitHub年度报告:7300万开发者,最爱的依旧是Javascript

2020 年,新冠疫情突然到来,拉开了人与人之间的「地理距离」。与此同时,开发者们不得不开始学会适应远程工作,在家中尽量保持与办公室时同等的生产力水平,此外还要兼顾工作与生活的平衡。

从陌生到熟悉,从无所适从到得心应手……2021 年快结束了,人们已经从希望恢复往日时光的心态发展到真正习惯了工作流程的改变,意识到了远程工作的切实需求。全球最大的代码托管平台 GitHub 正是这一趋势转换的见证者。

近日,GitHub 正式发布了 2021 年度报告。今年的研究结合了来自 400 万以上存储库的数据和来自 12000 多名开发者的调查结果,得出了一些有趣的结论。

GitHub 开发者数量超 7300 万

过去一年里,有 1600 万开发者加入了 GitHub,目前平台的开发者数量已经达到了 7300 万;过去一年里,他们在 GitHub 上创建了 6100 万个存储库。世界财富 100 强企业中的 84% 都在使用 GitHub。

过去一年里,43.2% 的 GitHub 活跃用户来自北美,其次是欧洲(33.5%)和亚洲(15.7%)。

其中,有 7555311 名开发者来自中国。

过去一年里,GitHub 迎来了 140 万新的开源贡献者:

近年来,开发者们使用的编程语言有什么趋势?Javascript 始终位列第一,Python 和 Java 近三年来分别位列第二和第三,地位稳固。

可以看到,从 2017 年开始,TypeScript 的热度在几年内一路飙升,终于抵达「第四名」的位置,超过了 C#、PHP、C++ 等二十几岁的老前辈,未来可期。

当工作方式在改变

2021 年,生产力开始恢复到新冠疫情之前的水平,同时也推动了远程和混合工作的范式转变。

人们的工作场所正在发生变化。当受访者被问及大流行之前的工作方式以及大流行之后希望如何与他人合作等问题,只有约 11% 的受访者希望回到原来的办公地点,对比之前 41% 希望在办公室工作的比例,下降了 30%。

实践表明,自动化增强了可持续性。自动化消除了分歧和重复性任务,团队在开源方面的表现提高了 27%,在工作上提高了 43%,开发者实现了更高的完成度。

GitHub 上的开发者模式反映了自动化软件交付是开源的关键推动因素,能帮助团队在规模上更快地发展。可以看到,大型存储库使用 Actions 的比例高于中小型库。

数据显示,一旦大型存储库开始使用 Actions,团队每天合并的拉取请求比以前增加了近 2 倍(增加了 61%),合并速度提高了 31%。在所有开源存储库中,使用 Actions 将合并拉取请求的数量增加了 36%,并将合并时间缩短了 33%。

还有一点容易被忽略:高效的搜索算法固然很好,但可搜索性也是一致的代码标准和命名约定的产物。

数据显示,当开发人员可以轻松找到他们需要的东西时,他们感到有能力完成工作的可能性要高出近 60%。此外,只需拥有一个易于搜索的团队存储库,他们就可以将生产力提高 11%——这一发现也得到了早期研究的支持。

更多报告细节详见:https://github.blog/2021-11-16-the-2021-state-of-the-octoverse/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值