03.19.03-test 使用堆栈溢出数据评估Amazon HQ2的选项

亚马逊是一个技术庞然大物,在全球范围内雇佣了半百万人,并在全球雇用了近13万人 2017 。 自1990年代初期以来,亚马逊就一直将总部设在西雅图,但在2017年9月,该公司宣布了在北美其他地区寻找第二总部的计划。 超过200个城市输入了出价进行考虑,上个月,亚马逊宣布了20位决赛选手名单。 这种选择会产生什么? 亚马逊表示,它希望拥有一个拥有超过一百万居民,可以使用机场并且通勤通勤的城市。 在Stack Overflow上,我们可以对问题提供不同的看法。

不同位置的软件开发人员具有不同的平均配置文件。 例如,他们或多或少地按比例使用不同的语言和技术。 不管是比较四个大城市,或深入研究移动发展前景如何 就像世界各地一样。 我们可以利用对整个北美的软件开发人员的了解,来说说哪些入围城市最适合亚马逊。 在软件开发人员工具和经验方面,亚马逊可以选择一个与其当前的西雅图总部相似的城市,或者,如果它想增加其软件劳动力的其他部分,他们可以选择一个不同的城市。

总体上最相似的城市

首先,我们可以在20个候选地点中寻找与西雅图最相似的城市。 西雅图是一个有趣的城市,需要进行这样的分析,因为尽管这个市区确实是亚马逊的故乡,但它也是另一家技术巨头的故乡。 。 在此分析中,我使用了用户的地理位置(基于IP地址)将其与20个入围城市/地区相关联。 我研究了Microsoft的存在如何严重影响我们可以通过从“西雅图”定义中包括华盛顿州雷德蒙德及其周围地区来得出的结论。 事实证明,它有很大的不同! 我可以在这里看到赞成和反对将Redmond包括在内的观点,这取决于一个人的特定分析目的。 我在这里的主要重点是了解西雅图技术生态系统对亚马逊的影响,因此在本分析的其余部分中,我将把Redmond和周围环境排除在西雅图的定义之外。

一旦我们拥有与20个决赛入围城市相关的用户,便可以计算每个城市与西雅图之间的相似度。 这里的“相似性”是指余弦相似度,基于这些城市中排名前500位的Stack Overflow代码的平均流量百分比。

此分析仅使用注册用户,并使用他们过去一年的流量。 我们发现已注册和未注册的用户具有相似的流量模式,但是我们可以更轻松地识别已注册用户并为他们提供更高质量的数据。 您可以看到我们为用户存储的确切数据类型,以及预测之外的数据。

我们在此图中看到,亚马逊确定为入围城市的所有选项彼此非常相似。 如果在此图上添加俄罗斯或印度的城市,则与这些北美技术中心相比,我们的余弦相似度将大大降低。 就开发人员使用的技术而言,北弗吉尼亚州和华盛顿特区与西雅图最相似。 弗吉尼亚州北部和华盛顿特区的开发人员会以最接近西雅图开发人员的比例(至少是西雅图不是Redmond的西雅图地区)访问各种技术。 还有另一层非常相似,包括亚特兰大,纽瓦克,费城和蒙哥马利县。 这非常有趣,但这不是我们可以从此类数据中学到的全部。 我们可以使用统计分析来探索更多内容。

了解使用主成分分析的开发人员

我们可以使用称为主要成分分析的统计技术 回答此类问题。 进入Stack Overflow的开发人员不会随机访问标签; 任何个人访问的标签都以与其所从事的工作相关的方式相关联。

让我们将每个Stack Overflow用户视为高维空间中的一个点,并以标签作为坐标。 主成分分析是一种将这些点投影这些点(或在这种情况下为用户)投影到新的特殊 坐标系。 在新坐标系中,每个坐标或主成分是标签/技术的加权总和。 第一个主成分在用户方向上的变化最大,第二个主成分在用户方向上的变化第二大,依此类推。

该图显示了从去年的注册流量的主成分分解到烟囱溢出问题的前六个成分或维度。 注意在这些不同组件中一起出现的标记的组合。

  • The first principal component, which explains the most variation in Stack Overflow users, contrasts users who visit a lot of front-end technologies (HTML, JavaScript, jQuery) with those who visit a lot of Python and/or low-level technologies like C++. When we look at all of our users, this spectrum from front-end to low-level and Python is what explains the most difference from one user to another.
  • The second principal component, which explains the second largest amount of variation in Stack Overflow users, is not a contrast between two kinds of things, but instead is focused on one family of technologies- the Microsoft ecosystem of C#, .NET, Visual Studio, and related technologies. The characteristic of developers that explains the second most difference is whether or not they use these Microsoft technologies.
  • The third principal component focuses on Android and iOS; this component measures to what extent a developer works building mobile apps.
  • The fourth principal component is another single family, focused on Java, Spring, and Maven.
  • The fifth principal component is back to a set of contrasts, and measures how much a developer works with C++ and C versus how much they work with SQL, databases, and perhaps some data handling with dataframes.
  • The six principal component returns to iOS development for Apple devices, but instead of being partnered with Android like it was before, now it is contrasted with Java tags. This is a lower-rank principal component, so this difference explains less variation in users than the fourth principal component.

有许多主要组成部分,每个主要组成部分在解释各个用户之间的差异时都没有以前重要。 通过将流量数据投影到新的坐标系中,我们可以得出有关亚马逊的候选城市选择的结论。

 

在这样的情节中有很多信息,所以让我们来谈谈一些细节。 x轴和y轴上的标签包括每个组件解释的数据变化百分比。 每个标记有城市或地区的橙色或蓝色点代表该都会区的总体平均用户,而灰色点则代表真实的个人用户。 使用去年访问至少200个问题的所有注册用户来计算主成分分解,但是为了直观起见,这些图显示了每10个用户中的一个。

这篇博客文章中的分析使用了我们的全球总流量(不只是北美),因此我们可以得出的第一个结论是,与全球开发商流量的变化相比,亚马逊候选城市之间的相似度很高。 与我们的全球流量相比,这20个地点彼此非常相似。 北美所有20个城市都将更多比例地集中于底层语言和Python(左侧更多),与全球分布相比,它们使用更多的Microsoft技术(更多)。

当我运行此分析但在我对西雅图的定义中包括 Redmond和Microsoft校园周围的位置时,西雅图在此Microsoft主导的主要组件中的贡献更大。 达拉斯,哥伦布和印第安纳波利斯在此图上(向上)的方向最远,该图表明有更多的Microsoft技术。 在这些城市,按比例有更多开发人员使用C#、. NET和Visual Studio等技术。 根据亚马逊希望如何投入微软技术堆栈而定,这可能很有吸引力或有一定局限性。

如果亚马逊想在移动开发方面投入更多资金怎么办? (我知道我在手机上的Amazon应用程序中购买了很多东西。)

候选者在该图中甚至更靠近,并且远离与大量移动开发相关的区域(上下)。 我们发现移动开发在北美以外的许多国家/地区发生。 如果亚马逊想选择一个拥有更多移动开发商的城市,那么不错的选择将是洛杉矶,纽约和多伦多。

如果亚马逊想在数据科学和机器学习上投入更多资金该怎么办? 不论是推荐引擎还是亚马逊的自然语言处理,所有Amazon的客户都会体验到如何利用数据科学来工作。 Amazon Echo

下一个情节使我们大大降低了主要成分的排名; 请注意,这些尺寸分别占我们用户差异的1.5%。 与全球分布相比,这两个组成部分的所有亚马逊候选城市的绝对值都异常大,PC17 / PC18值为负。 让我们看看在这些方向上有助于这些方面的技术。

主组件17的负面方面涉及Hadoop,Spark,Hive和Scala,而主组件18的正面方面关注R,ggplot2和统计信息。 这两个组件分别衡量了多少用户参与了数据工程和数据科学,而亚马逊的所有候选城市对此都有相对较大的价值。 如果亚马逊希望选择一个拥有相应比例的开发人员经验的城市,那么罗利和哥伦布将是不错的选择。 重要的是要注意,我们经常看到像R这样的统计分析技术在具有较高学术,研究和研究生人数的城市中按比例使用。 哥伦布(Columbus)和罗利(Raleigh)都有健康的学术中心,可能在这里做出了贡献,但是亚马逊特别列出了与主要大学的距离作为他们想要的东西,所以也许这很好!

亚马逊应该在哪里建立第二总部?

因此,经过所有这些分析之后,我们可以从Stack Overflow流量分析中得出关于亚马逊第二总部的选择的看法? 如果要求我提供有关此选择的见解,我会建议什么?

  • These large cities and metro areas in the United States are quite similar to each other, especially compared to worldwide variation, and it’s unlikely that any would be a truly bad choice.
  • The choices that are most similar overall to Seattle in terms of technology ecosystems are Northern VA and Washington, DC. If Amazon wants to go with a city where the developer population feels as familiar as possible, these would be the way to go.
  • If Amazon wants to choose a city with proportionally more mobile developers, Los Angeles, New York, and Toronto would be the best choices.
  • If Amazon wants to choose a city with proportionally more developers working in data science and machine learning, Raleigh or Columbus would be excellent choices.

在Stack Overflow,我们能够探讨这类问题,因为我们了解开发人员,技术以及这些技术在复杂生态系统中如何相互关联。 我们利用这些专业知识来帮助公司了解,吸引,吸引并聘用开发人员

from:https://stackoverflow.blog/2018/02/28/evaluating-options-amazons-hq2-using-stack-overflow-data/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值