精通数据科学_10篇文章变得更加精通数据科学

精通数据科学

当领英发布其第三份年度新兴工作报告时 ,各地的工程师都说:“阿们”。 超过一半的清单是工程角色,并且首次出现了新的领域,例如机器人技术。

但是数据科学也有很强的表现。 该职位的年增长率为37%,连续第三年位居“新兴职位”列表的首位。

通过查看数据科学家所需的核心技能(包括R,Python和Apache Spark),很容易发现与开放源代码重叠的地方。 因此,我们对数据科学成为2019年Opensource.com上最受欢迎的话题之一并不感到惊讶。

我们看到了需要有关各种数据科学主题的知识。 我们的作者社区提供了答案。

为了您的阅读愉快,我们列出了2019年数据科学领域的前10名文章。我们将“最高”定义为2019年发布的数据科学文章,并从最受欢迎的页面开始获得了最多的页面浏览量。

无论您是要使用Kubernetes进行批处理作业还是要查询10年的GitHub数据,这些文章都将在2020年推动您的数据科学游戏。

为什么数据科学家喜欢Kubernetes

Kubernetes有一个以上的时刻。 这在很大程度上要归功于它的多功能性。 您可能已经知道Kubernetes帮助软件开发人员和系统操作员在Linux容器中部署应用程序。 但是您知道它对数据科学有多大帮助吗?

在2019年我们最受欢迎的数据科学文章《 为什么数据科学家喜欢Kubernetes 》中,William Benton和Sophie Watson分享了Kubernetes如何支持数据科学工作流程。 从可重复的批处理作业到调试ML模型,本文为数据科学家分享了几种利用Kubernetes的方法。

如何使用Spark SQL:动手教程

如何使用Spark SQL:动手教程使用Spark DataFrames展示了如何大规模使用关系数据库。 DJ Sarkar使用真实世界的数据集引导读者完成使用Spark SQL的过程。

Sarkar的教程内容丰富,包括屏幕截图和代码,是关于该主题的第一篇文章的理想续篇。 他分享了几种使用Spark来管理从平面文件或数据库获得的结构化数据的方式。

数据科学项目的9种资源

从机器学习到神经网络,开源中数据科学的发展使得许多工程师想了解更多。 在9个用于数据科学项目的资源中 ,Dan Barker分享了他认为对于任何想入门的工程师都必须的书籍,工具和在线课程。

Barker特别热衷于Cathy O'Neil的著作《数学破坏武器》 ,该书分享了偏见如何渗入数据以及如何阻止数据。 他还分享了许多新手可以浏览的网站。

使用Python进行数据科学入门

除了数据科学技术的兴起之外,Python的地位也在飞速增长。 现在,它是最受欢迎的编程语言之一。 当与pandas和Seaborn之类的库一起使用时,Python是数据科学的理想入门。

塞思·肯隆(Seth Kenlon)在他的Python入门文章的后续文章《 使用Python进行数据科学入门 》中,分享了如何创建Python虚拟环境。 安装熊猫和NumPy; 创建样本数据集; 以及更多。 如果您想了解有关数据可视化的更多信息,那么这篇文章特别有用。

如何使用Python和Apache Spark分析日志数据

就像我们前十名中的许多文章一样,《 如何使用Python和Apache Spark分析日志数据》之前有关使用Python和Apache Spark纠缠数据的文章的续篇。 一旦您了解了如何将数据转换为干净的结构化格式,DJ Sarkar就会提供帮助您分析数据的内容。

无论您是要查看前10个错误端点还是内容大小统计信息,Sarkar都会向您展示如何分析DataFrame中的几种日志数据类型。 从大小或卷的角度来看,他使用的数据不是“大数据”。 但是这些技术可以扩展以用于更大的数据集。

如何使用Python和Apache Spark处理日志数据

DJ Sarkar关于分析日志数据的文章的前传, 如何使用Python和Apache Spark处理日志数据,也进入了我们的前十名。 毫不奇怪,因为大多数组织都使用一系列不断运行的系统和基础架构。 数据日志是确保所有内容均有效运行的理想方法。

在本教程中,Sarkar显示了如何在来自NASA的真实生产日志中使用Apache Spark。 他逐步介绍了使用Spark对半结构化日志数据进行大规模日志分析的过程。 从设置依赖项到数据整理,范围广泛。

使用GHTorrent和Libraries.io查询十年的GitHub数据

您是否知道可以使用Kibana或Elasticsearch API将Amazon S3对象存储数据转换为可搜索的Elasticsearch型集群? 同样,您是否了解旨在构建可通过GitHub API获得的所有数据的脱机版本的项目?

使用GHTorrent和Libraries.io查询GitHub十年数据时 ,Pete Cheslock探索了如何访问和查询GHTorrent数据。 您可以使用多种格式来做到这一点,包括CSV和Google Big Query。 Cheslock使用后者搜索索引的GHTorrent数据,以了解GitHub项目中最受欢迎的软件语言,许可证和增长率。

使用Python和数据科学预测NFL比赛结果

是否想提高您在Python中的机器学习技能? 随着NFL季后赛的到来,现在是阅读Python和数据科学预测NFL比赛结果的好时机,它分享了一些数据科学技巧来预测比赛。

Christa Hayes展示了如何发现怪异的值,预测跌落和比赛类型,制作回归图以及训练模型。 阅读完她关于如何格式化数据进行训练的文章后 ,这是下一步的理想选择。

使用Python和Pandas分析堆栈溢出调查

Stack Overflow的年度开发人员调查是一个技术庞然大物。 今年有近90,000名开发人员参加了为期20分钟的调查,留下了大量数据。

为了找到某些结果,Moshe Zadka使用熊猫库搜索了调查的匿名结果 。 如果要过滤某些特定细节的Stack Overflow数据集(例如查看有多少开发人员使用某些语言或为开源项目做出贡献),Moshe的“使用Python和Pandas分析Stack Overflow调查”教程将向您展示如何。

4个天文学入门Python工具

对于头脑风暴的读者,NumFOCUS今年在Opensource.com上重新发布了一些博客文章。 在用于天文学入门的4种Python工具中 ,Gina Helfrich博士分享了如何参与天文学。

吓到了吗 别这样:Helfrich博士说Python软件包是如此先进,以至于构建数据缩减脚本比以往任何时候都容易得多。 如果您想使用天文学影像数据集,这部分内容将引导您朝着正确的方向发展。

您想了解什么数据科学?

数据科学是一个令人兴奋的领域,需要探索的事物无数。 如果您想了解一些有关数据科学的知识,请在评论中告诉我们,以便我们能够在2020年涵盖它。或者,如果您愿意,请通过提交文章与Opensource.com读者分享您的知识。关于您最喜欢的数据科学主题。

翻译自: https://opensource.com/article/19/12/data-science-resources

精通数据科学

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值