2016年03月_Er8cJiang

翻译 21个数据科学家面试必须知道的问题和答案

21个数据科学家面试必须知道的问题和答案转载请注明! KDnuggets 编辑提供了用以斟辨“假”数据科学家之二十问的答案，包括什么是正则化（regularization），我们喜爱的数据科学家，模型验证等等。作者：Gregory Piatetsky,KDnuggets近期发布在KDnuggets上的一篇文章：《检测“假”数据科学家的二十问》非常热门，获得了1月阅读排行榜第一名。然而，这些问题并没

2016-03-31 16:11:17 6664

翻译 7个步骤掌握使用python进行机器学习

7个步骤掌握使用python进行机器学习有许多python机器学习资源在线免费提供.从哪开始?如何进行?从零到python机器学习大神只要7个步骤.作者Matthew Mayo.发表于KDnuggests.入门.在英语中最打击人的两个单词.第一部往往是最难的,当在这方面有太多选择,通常让人崩溃.从哪开始? 这篇文章旨在用7个不走带领python机器学习知识最少的新人成为知识渊博从业者,使用免费材料

2016-03-30 12:26:25 13668 1

翻译 Python的可视化工具概述

Python的可视化工具概述概述并比较Python数据可视化包和工具，包括Pandas，Seaborn，ggplot，Bokeh，pygal，和Plotly。作者Chris Moffitt.发表于kdnuggets.介绍在Python世界中,有大量数据可视化的选项.因为各种各样,要知道什么时候使用哪个是非常困难的.本文包含一些较为流行的样例,并说明如果使用其创建简单的条形图.我会使用以下包/工具创建

2016-03-29 21:29:07 2149

翻译贝叶斯机器学习

贝叶斯机器学习作者Zygmunt Z. 2016-03-28发表于博文你知道贝叶斯定理是如何涉及到机器学习的?对于难题如何组合在一起是非常难掌握的,我们知道这花了一段时间.本文是当时发展的介绍. 虽然我们对此事有一定掌握,但是我不是专家,因此下面可能会包含不准确甚至是错误的地方.请在评论或是私信随意指出.贝叶斯学派和频率学派在本质上,贝叶斯意味着概率.具体的术语存在是由于有两种方法获取概率.贝叶

2016-03-29 18:08:18 1404

翻译 GitHub可视化项目,你了解多少?

GitHub十大可视化项目原文发表于http://wenda.chinahadoop.cn/question/2746 未经本人允许,请勿转载.Github上提供了许多用于数据科学和应用程序开发,并集成最高品质的视觉开源数据可视化选项。这是一个基于星星数量描述可供使用的顶级项目的列表。作者Matthew Mayo, KDnuggets.开源工具在数据科学工作流程中越来越重要.最近KDnugget

2016-03-25 20:09:37 1906

翻译 GitHub机器学习项目,你了解多少?

GitHub十大机器学习项目在Github上排名前10位的机器学习项目包括许多库，框架和教育资源。看看别人都在用的工具，和学习的资源。作者Matthew Mayo, KDnuggets.开源工具在数据科学工作流程中越来越重要. 最近KDnuggets软件民意调查结果显示,73%的数据科学家使用前12个月免费的数据科学工具.这是容易理解的,因为Python和R的生态系统,是数据科学家使用的最突出最重

2016-03-25 18:54:40 1295

翻译 GitHub深度学习项目,你了解多少?

GitHub十大深度学习项目在Github上排名前10位的机器学习项目包括许多库，框架和教育资源。看看别人都在用的工具，和学习的资源。作者Matthew Mayo, KDnuggets.开源工具在数据科学工作流程中越来越重要. 最近KDnuggets软件民意调查结果显示,73%的数据科学家使用前12个月免费的数据科学工具.这是容易理解的,因为Python和R的生态系统,是数据科学家使用的最突出最重

2016-03-25 18:54:01 1838

翻译一篇文章,带你明白什么是过拟合,欠拟合以及交叉验证

误差模型：过拟合，交叉验证,偏差-方差权衡作者Natasha Latysheva;Charles Ravarani 发表于cambridgecoding介绍在本文中也许你会掌握机器学习中最核心的概念:偏差-方差权衡.其主要想法是,你想创建尽可能预测准确并且仍能适用于新数据的模型(这是泛化).危险的是,你可以轻松的在你制定的数据中创建过度拟合本地噪音的模型,这样的模型是无用的,并且导致弱泛化能力

2016-03-25 16:13:09 9159 4

翻译 Uber无模式数据存储

Uber无模式数据存储设计无模式。Uber工程师使用MySQL定制数据库，允许我们从2014向后扩展。这是无模式三部分系列的第一部分。在项目Mezzanine中，我们描述了如和从单一Postgres实例迁移Uber核心到无模式、容错以及高可用的数据库。这篇文章进一步描述其结构以及扩展已经存在Uber基础设施的无模式的作用，以及怎么走过来的。新数据库竞赛早在2014年，由于蓬勃发展的行程增长，

2016-03-17 16:16:11 1408

翻译 Kafka在大数据生态系统中的价值

在最近几年，Apache Kafka的使用量急剧增长。目前Kafka的用户包括Uber,Twitter，Netflix,LinkedIn，Yahoo，Cisco，Goldman Sachs等等。Kafka是一个可扩展的发布/订阅系统。用户可以发布大量信息到系统，同样可以通过订阅消费这些数据。本博客解释了为什么Kafka越来越受欢迎，以及它在大数据生态系统的作用。one-size-fits-all模型

2016-03-17 16:15:25 2023

翻译 Kafka数据流：让流处理更轻松

很高兴宣布，Apache Kafka的一项新功能预览叫Kafka Streams。Kafka Streams是一个使用Apache Kafka用于构建分布流处理应用的Java库。这将是即将更新Kafka-0.10版本的一部分，并且已经提供可以很容易试用的预览版。使用Kafka Stream构建一个流处理应用如下所示: 尽管还是一个很简陋的库，但是Kafka　Stream解决了许多流

2016-03-16 17:53:58 8344 1

翻译 Pinterest主页的机器学习

Pinterest拥有超过300亿（正在增长）附有背景和视觉信息的“pin”。1000W用户每天通过浏览器、搜索、pin以及通过点击外部网站访问交互。主页收集用户发布的pins，公布到boards并按兴趣划分，同时为用户挑选推荐，因此主页成为最重要的用户参与服务，并贡献相当大比例的repins。越来越多的用户pin,人们可以获取更好的Pinterest,我们处于一个独特的位置为探索持续不断的提供灵感

2016-03-16 17:52:43 966

Er8cJiang的博客