数据工程 数据科学
数据科学和程序设计是一个快速发展的专业,很难跟上Google,Uber,Netflix和一位工程师的所有文章。 过去几周我们一直在阅读一些内容,并希望在2019年4月这一周分享一些顶级博客文章!
我们希望您喜欢这些文章。
在Netflix上建立和扩展数据沿袭
作者: 狄林 ( Di Lin) , 吉里斯·林加帕 ( Girish Lingappa) , 吉特 ( Jitender Aswani)
想象一下自己是一个受数据启发的决策者的角色,他盯着仪表板上的指标制定即将做出的关键业务决策,却停下来问一个问题:“我可以自己检查一下以了解该指标背后的数据是什么吗?”
现在,想像一下您扮演的是负责微服务的软件工程师的角色,该微服务发布很少有面向客户的关键服务(例如,计费)消耗的数据。 您将要对数据进行结构更改,并想知道服务的下游对象和对象将受到影响。
DeepMind与Google:控制人工智能之战
哈尔·霍德森
2010年8月的一个下午,在旧金山湾边缘的一个会议厅里,一个叫Demis Hassabis的34岁的伦敦人登上了舞台。 步履蹒跚地走到讲台上,一个男人试图控制自己的神经,他s起嘴唇笑了一下,然后开始讲话:“所以今天我要谈论的是不同的建筑方法……”他停顿了下来,仿佛刚刚意识到他正在大声说出自己的雄心壮志。 然后他说:“ AGI”。
在这里阅读更多
学习数据科学:我们最喜欢的资源(从免费到免费)
今天,我们想涵盖一些我们最喜欢的数据科学资源。 如标题所示,这些资源将是免费的。 有些人喜欢买书,有些人则喜欢在线课程。 因此,我们创建了此数据资源列表,从书本到课程,从免费到没有。
数据科学有很多方面。 统计信息,数据清理,编程,系统设计以及实际上……几乎所有与数据相关的其他信息都取决于公司的规模。
这篇文章将讨论我们最喜欢的这些主题资源。 现在,这些课程和书籍中的大多数都是有关统计学,Python和数据科学等主题的入门。 他们确实只会提供基础知识。 归根结底,真正的实践经验是可以真正训练您的数据科学知识的几件事。 您应该从这些资源中学习尽可能多的知识,然后申请尽可能多的实习和入门级职位,并进行面试。
用10行代码进行对象检测
人工智能的重要领域之一 是计算机视觉。 计算机视觉是计算机和软件系统的科学,可以识别和理解图像和场景。 计算机视觉还由各个方面组成,例如图像识别,对象检测,图像生成,图像超分辨率等。 由于大量实际使用案例,对象检测可能是计算机视觉最深刻的方面。 在本教程中,我将简要介绍现代对象检测的概念,软件开发人员面临的挑战,我的团队提供的解决方案以及执行高性能对象检测的代码教程。
Apache Airflow如何为芹菜工人分配工作
了解Apache Airflow通过RabbitMQ队列在Celery工作人员上执行任务分配时发生的情况。
Apache Airflow是一种工具,可用于在AWS上创建工作流,例如extract-load-transform管道 。 工作流是任务的有向无环图(DAG),Airflow能够在节点群集上分配任务。 让我们看看它是如何做到的。
使用Google相册捕捉特殊的视频时刻
录制难忘时刻与朋友和亲人分享的视频已变得司空见惯。 但是,正如拥有大量视频库的任何人都可以告诉您的那样,遍历所有原始素材以寻找完美的片段以与家人和朋友共享或分享是一项非常耗时的任务。 Google相册可以自动查找视频中的神奇时刻(例如,孩子吹蜡烛或朋友跳进游泳池时),并从中创建动画,以便与朋友和家人轻松共享,从而使这一过程变得更加轻松。
在这里阅读更多
Uber案例研究:为您的Apache Spark作业选择正确的HDFS文件格式
斯科特·肖特(Scott Short)
为了在平台上创造更好的用户体验,我们进行了一系列努力,我们的Maps Data Collection团队成员使用专用的移动应用程序来收集图像及其相关的元数据来增强我们的地图 。 例如,我们的团队捕获路牌的图像,以提高我们的地图数据的效率和质量,从而带来更加无缝的旅行体验……
您创建了一个机器学习应用程序。 现在确保它是安全的。
在最近的一篇文章中 ,我们描述了构建可持续的机器学习实践将需要采取的措施。 “可持续”是指不仅仅是概念或实验证明的项目。 可持续实践是指与组织使命不可分割的项目:组织赖以生存或死亡的项目。 这些项目由稳定的工程师团队构建和支持,并由理解机器学习,为何重要和能够完成什么的管理团队支持。
开发数据科学职业框架
在Uptake,数据科学家是我们工作的核心。 为此,对以下内容进行良好的定义非常重要:数据科学家做什么? 如何评估数据科学家的绩效; 以及数据科学家的职业生涯如何发展。 一旦有了这些定义,就可以将它们用作所有雇用,发展,薪酬,退出和晋升决定的基础。
使用ML可解释性工具和技术诊断心脏病
简介在机器学习的所有应用程序中,使用黑匣子诊断任何严重疾病始终是一件很难的事。 如果模型的输出是特定的治疗过程(可能有副作用),手术或没有治疗,则人们会想知道原因 。
该数据集提供许多变量以及患有或不患有心脏病的目标状况。 下面,首先在简单的随机森林模型中使用数据,然后使用ML可解释性工具和技术研究模型。
在这里阅读更多
非常感谢您的阅读。 如果您有兴趣获取有关我们最喜欢的文章的更新,请在此处注册以获取每周新闻。
翻译自: https://hackernoon.com/10-great-articles-on-data-science-and-data-engineering-d5abdf4a4a44
数据工程 数据科学