自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 R 中这些常用的包你知道多少?

Machine Learning 在R中最常用的包e1071 隐类分析,短时傅立叶变换,模糊聚类,支持向量机,最短路径计算,袋装集群,朴素贝叶斯分类器 等函数(142479 downloads) rpart 递归分割和回归树. (135390) igraph 网络分析工具集. (122930) nnet 前馈神经网络和多项对数线性模型. (108298) randomForest 随机森林

2016-04-19 12:06:26 1711

原创 P值已经被废,学的东西有多少是真的?

美国统计协会发布有关统计学意义和P值的声明–提供提高定量科学的行为和解释的准则美国统计协会(ASA)发布了”统计意义和P值的声明”,其中包含正确使用,解释p值的6个原则.ASA发布这个P值的指南,以提高定量科学的行为和解释,并告知越来越重视科学重复性的研究.声明中同时指出,科学研究和大型复杂数据集的扩散的量化扩大了统计范围和选择适当技术的重要性,进行得当分析以及正确的解释. 良好的统计实践是科学实

2016-04-05 20:52:04 2854

翻译 分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客

分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客留在数据科学技能的巅峰!下面是对大数据,数据科学,数据挖掘,机器学习和人工智能约100最活跃,最有趣的博客的列表。Devendra Desale发表于KDnuggets.以下是有关100个活跃并定期更新博客,按英文字母顺序排列如下。 3Blades 云数据分析。http://www.3blades.io/blog/雅培分析(院长雅培和威

2016-04-05 18:01:53 3306

翻译 数据科学中R VS Python:获胜者是...

数据科学中R VS Python:获胜者是…在”最佳”数据科学工具的比赛中,R和Python都有自己的优缺点.对二者的选择取决于使用背景,学习花费和其他常用工具的需要 Martijn Theuwissen发表于DataCamp.在DataCamp,学生经常问我们他们日常数据分析任务使用R或Python。虽然我们主要是提供交互式R教程,我们总是回答这个问题取决于他们所面对的数据分析挑战的类型。 R和

2016-04-05 16:41:48 3855

转载 数据科学的战争:R vs Python

转载请注明.

2016-04-05 15:18:56 1091

翻译 十大数据爱好者必备书籍

十大数据爱好者必备书籍转载请注明! 这是一个独一无二的书籍前十推荐,对每个十大推荐展示出顶级付费或免费书籍推荐.如果你对数据书籍感兴趣,这个列表可能合你口味. Matthew Mayo 发表于 KDnuggets.真正的数据爱好者阅读许多关于大数据,机器学习,数据科学和数据挖掘的书籍.除了这些技术领域,还有很多具体语言实现:Hadoop,Spark,Python,R等等,更不用说职业生活各个

2016-04-05 13:01:00 1967

翻译 Alphabet 和 Facebook的Stratospheric Internet纠结于繁文缛节

Alphabet and Facebook的Stratospheric Internet纠结于繁文缛节转载请注明! 计划使用无人机和气球提供无线上网,需要监管机构相当大的帮助,比如监测领空和通讯卫星。 对于气候和商用航空交通的问题,平流层可能是想差基础设施地区放射网路连接信号最好的地方。Alphabet and Facebook 都致力于开发无人机,在18千米以上的高空作业,今年Alphabet

2016-04-04 22:43:49 869

翻译 Kaggle竞赛Santander 客户满意

Kaggle竞赛Santander 客户满意Banco Santander 获得了数据科学社区Kaggle最近主办竞赛的帮助。本次大赛的主要目标是建立一个区分满意和不满意客户的预测模型。 银行提供训练和测试数据集。训练数据集提供客户满意度的指标。参赛者要求使用此数据集建立,调整模型,成功预测没有提供满意度指标的测试集。 训练集包含369个匿名变量,和76818观测值。 数据变量可用信息较少。只

2016-04-03 23:38:46 2598 2

翻译 AlphaGo 真的如此重要么?

AlphaGo 真的如此重要么?转载请注明! 围棋对弈程序捕捉人的直觉元素,指望产生深远结果的预知。 1997年,IBM的Deep Blue系统击败了国际象棋世界冠军Garry Kasparov。当时,胜利被广泛描述为人工智能的里程碑。但Deep Blue的技术被证明是只对国际象棋有用的,仅此而已。计算机科学没有经受革命。最近击败历史上最强的棋手的AlphaGo Go-playing系统有

2016-04-03 19:37:39 936

翻译 Spark 深度学习的悖论实效

Spark 深度学习的悖论实效转载请注明!在过去三年,Databricks 最聪明的工程师研究一个秘密的项目。今天,我们揭秘DeepSpark,这是Apache Spark一个虫咬的里程碑。DeepSpark使用前沿神经网络自动化许多手工过程,包括软件开发,修复bug,按照规范实现特征,并通过pull request(PRs)审查正确性。 扩展Spark的开发一直是我们首要的任务。每年,Spa

2016-04-02 23:31:08 835

翻译 2016 Y Combinator Winter 13家机器学习&数据分析初创公司

Y Combinator Winter 2016 13家机器学习&数据分析初创公司Introduction转载请注明! 企业家的灵感来源于商业构想如果你打算开发一个产品,我建议先查看这些初创公司。你可能对你的产品发现新的角度,并使用机器学习&预测分析让你的产品更强大。 这些初创公司得到了Y Combinator每年2次$120k的投资。诸如Reddit, Quora, Airbnb, Dro

2016-04-02 21:08:32 1375

翻译 XX2Vec算法汇总

XX2Vec算法汇总转载请注明! XX2Vec Embed In Sup/Unsup Algorithms used Char2Vec Character Sentence Unsupervised CNN -> LSTM Word2Vec Word Sentence Unsupervised ANN GloVe Word

2016-04-02 18:30:29 3819 1

翻译 建立神经网络:Part 0

建立神经网络:Part 0转载请注明!机器学习是成功的,时髦的,可以学习实现你的冒险。 这就是我想做的,为了让任何人对如何产生原始实例网络感兴趣,我会从本质上讲解我对神经网络的理解(示例会用Python3。这就是我不喜欢的地方,为什么不是2.7)。 本系列第一项涵盖理论,在试图编写代码或分析任何类型数据之前确保这是巩固的。 什么是神经网络? 一个网络收集一起工作形成更智能结果/解决方案的神经

2016-04-02 17:21:03 733

翻译 应用数学十大算法

应用数学十大算法在JCSE2000年2月发表的论文中,Jack Dongarra and Francis Sullivan 挑选了”21世纪科学和工程实践和发展最具影响力的十大算法”,并展示了这些算法的文章,他们具有许可编纂.(Barry Cipra的SIAM新闻文章给出了谁不能访问原始论文的概述).这十大列表吸引了很多人的注意力. 16年后,我虽然很想用不同的方式生成一个列表,看看与原来的top

2016-04-01 22:44:34 2751

翻译 谷歌DeepMind现在可以分析万智牌和炉石卡

谷歌DeepMind现在可以分析万智牌和炉石卡随着复古游戏和围棋被征服,像Google DeepMind这样的人工智能转向何方?很明显,万智牌和炉石传说(:( 我对这个很伤心). 在你太激动之前,没有计划设定AI自由游戏.至少现在没有. 就目前而言,牛津大学的父老乡亲对DeepMind分析卡牌数据并将其转换为代码非常高兴.本质上,设定的任务是一个翻译人的数据为机器语言,同时卡牌有自己的游戏语言和

2016-04-01 18:34:18 1383

翻译 21个数据科学家面试必须知道的问题和答案

21个数据科学家面试必须知道的问题和答案转载请注明! KDnuggets 编辑提供了用以斟辨“假”数据科学家之二十问的答案,包括什么是正则化(regularization),我们喜爱的数据科学家,模型验证等等。作者:Gregory Piatetsky,KDnuggets近期发布在KDnuggets上的一篇文章:《检测“假”数据科学家的二十问》非常热门,获得了1月阅读排行榜第一名。然而,这些问题并没

2016-03-31 16:11:17 6718

翻译 7个步骤掌握使用python进行机器学习

7个步骤掌握使用python进行机器学习有许多python机器学习资源在线免费提供.从哪开始?如何进行?从零到python机器学习大神只要7个步骤.作者Matthew Mayo.发表于KDnuggests.入门.在英语中最打击人的两个单词.第一部往往是最难的,当在这方面有太多选择,通常让人崩溃.从哪开始? 这篇文章旨在用7个不走带领python机器学习知识最少的新人成为知识渊博从业者,使用免费材料

2016-03-30 12:26:25 13718 1

翻译 Python的可视化工具概述

Python的可视化工具概述概述并比较Python数据可视化包和工具,包括Pandas,Seaborn,ggplot,Bokeh,pygal,和Plotly。作者Chris Moffitt.发表于kdnuggets.介绍在Python世界中,有大量数据可视化的选项.因为各种各样,要知道什么时候使用哪个是非常困难的.本文包含一些较为流行的样例,并说明如果使用其创建简单的条形图.我会使用以下包/工具创建

2016-03-29 21:29:07 2165

翻译 贝叶斯机器学习

贝叶斯机器学习作者Zygmunt Z. 2016-03-28发表于博文你知道贝叶斯定理是如何涉及到机器学习的?对于难题如何组合在一起是非常难掌握的,我们知道这花了一段时间.本文是当时发展的介绍. 虽然我们对此事有一定掌握,但是我不是专家,因此下面可能会包含不准确甚至是错误的地方.请在评论或是私信随意指出.贝叶斯学派和频率学派在本质上,贝叶斯意味着概率.具体的术语存在是由于有两种方法获取概率.贝叶

2016-03-29 18:08:18 1425

翻译 GitHub可视化项目,你了解多少?

GitHub十大可视化项目原文发表于http://wenda.chinahadoop.cn/question/2746 未经本人允许,请勿转载.Github上提供了许多用于数据科学和应用程序开发,并集成最高品质的视觉开源数据可视化选项。这是一个基于星星数量描述可供使用的顶级项目的列表。作者Matthew Mayo, KDnuggets.开源工具在数据科学工作流程中越来越重要.最近KDnugget

2016-03-25 20:09:37 1917

翻译 GitHub机器学习项目,你了解多少?

GitHub十大机器学习项目在Github上排名前10位的机器学习项目包括许多库,框架和教育资源。看看别人都在用的工具,和学习的资源。作者Matthew Mayo, KDnuggets.开源工具在数据科学工作流程中越来越重要. 最近KDnuggets软件民意调查结果显示,73%的数据科学家使用前12个月免费的数据科学工具.这是容易理解的,因为Python和R的生态系统,是数据科学家使用的最突出最重

2016-03-25 18:54:40 1307

翻译 GitHub深度学习项目,你了解多少?

GitHub十大深度学习项目在Github上排名前10位的机器学习项目包括许多库,框架和教育资源。看看别人都在用的工具,和学习的资源。作者Matthew Mayo, KDnuggets.开源工具在数据科学工作流程中越来越重要. 最近KDnuggets软件民意调查结果显示,73%的数据科学家使用前12个月免费的数据科学工具.这是容易理解的,因为Python和R的生态系统,是数据科学家使用的最突出最重

2016-03-25 18:54:01 1861

翻译 一篇文章,带你明白什么是过拟合,欠拟合以及交叉验证

误差模型:过拟合,交叉验证,偏差-方差权衡作者Natasha Latysheva;Charles Ravarani 发表于cambridgecoding介绍  在本文中也许你会掌握机器学习中最核心的概念:偏差-方差权衡.其主要想法是,你想创建尽可能预测准确并且仍能适用于新数据的模型(这是泛化).危险的是,你可以轻松的在你制定的数据中创建过度拟合本地噪音的模型,这样的模型是无用的,并且导致弱泛化能力

2016-03-25 16:13:09 9238 4

翻译 Uber无模式数据存储

Uber无模式数据存储设计无模式。Uber工程师使用MySQL定制数据库,允许我们从2014向后扩展。这是无模式三部分系列的第一部分。 在项目Mezzanine中,我们描述了如和从单一Postgres实例迁移Uber核心到无模式、容错以及高可用的数据库。这篇文章进一步描述其结构以及扩展已经存在Uber基础设施的无模式的作用,以及怎么走过来的。 新数据库竞赛早在2014年,由于蓬勃发展的行程增长,

2016-03-17 16:16:11 1426

翻译 Kafka在大数据生态系统中的价值

在最近几年,Apache Kafka的使用量急剧增长。目前Kafka的用户包括Uber,Twitter,Netflix,LinkedIn,Yahoo,Cisco,Goldman Sachs等等。Kafka是一个可扩展的发布/订阅系统。用户可以发布大量信息到系统,同样可以通过订阅消费这些数据。本博客解释了为什么Kafka越来越受欢迎,以及它在大数据生态系统的作用。one-size-fits-all模型

2016-03-17 16:15:25 2049

翻译 Kafka数据流:让流处理更轻松

很高兴宣布,Apache Kafka的一项新功能预览叫Kafka Streams。Kafka Streams是一个使用Apache Kafka用于构建分布流处理应用的Java库。这将是即将更新Kafka-0.10版本的一部分,并且已经提供可以很容易试用的预览版。   使用Kafka Stream构建一个流处理应用如下所示:   尽管还是一个很简陋的库,但是Kafka Stream解决了许多流

2016-03-16 17:53:58 8385 1

翻译 Pinterest主页的机器学习

Pinterest拥有超过300亿(正在增长)附有背景和视觉信息的“pin”。1000W用户每天通过浏览器、搜索、pin以及通过点击外部网站访问交互。主页收集用户发布的pins,公布到boards并按兴趣划分,同时为用户挑选推荐,因此主页成为最重要的用户参与服务,并贡献相当大比例的repins。越来越多的用户pin,人们可以获取更好的Pinterest,我们处于一个独特的位置为探索持续不断的提供灵感

2016-03-16 17:52:43 982

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除