数据科学
文章平均质量分 79
RoQuant
一个量化投资爱好者
展开
-
Kaggle大赛:债务违约预测冠军作品解析
债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面。其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策。其二是债权人可以预测这个债务人何时会陷入到财务方面的困境。最终目的是,通过预测未来两年内债务违约的概率,来改进现有的信用评分制度。这是一个极度复杂和困难的Kaggle挑战,因为银行和各种借贷机构一直都在不断地寻找和优化信用评分的算法。这转载 2016-10-20 10:07:53 · 4383 阅读 · 1 评论 -
分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain
书接前文。跟ROC类似,Lift(提升)和Gain(增益)也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来,也有跟一个baseline model的比较,然后也是很容易画出来,很容易解释。以下先修知识,包括所需的数据集:分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵分类模型的性能评估——转载 2014-12-15 11:29:15 · 1706 阅读 · 0 评论 -
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
ROC上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看):Sensitivity(覆盖率,True Positive Rate)1-Specificity (Specificity, 负例转载 2014-12-15 11:25:30 · 1537 阅读 · 0 评论 -
Should you teach Python or R for data science?
Last week, I published a post titled Lessons learned from teaching an 11-week data science course, detailing my experiences and recommendations from teaching General Assembly's 66-hour introductory转载 2015-02-04 19:58:22 · 759 阅读 · 0 评论 -
In-depth introduction to machine learning in 15 hours of expert videos
In January 2014, Stanford University professors Trevor Hastie and Rob Tibshirani (authors of the legendary Elements of Statistical Learning textbook) taught an online course based on their newest转载 2014-12-24 22:40:59 · 5302 阅读 · 0 评论 -
The R user point-of-view about “Statistics Without the Agonizing Pain”
(This article was first published on MilanoR, and kindly contributed toR-bloggers) Contrary to general expectations, or at least to my expectations, the logical and analytical concepts be转载 2015-01-14 08:57:44 · 494 阅读 · 0 评论 -
第七届中国R语言会议杭州会场开场致辞(阿里巴巴数据技术与产品部负责人闵万里)
今天的这个天气,是对大家的一种考验,也是对大家对R的热情和数据挖掘这一个领域的一种挑战或考验,很高兴祝贺大家通过了这个考验。这是我第一次讲话不用ppt,因为此前我讲过很多次了,只是以一种不同的身份、以学术研究的语言与同行交流。但今天我的身份稍微一转换——代表淘宝IT的阿里巴巴数据系统产品部。我们的副总裁车品觉老师,他最近写了一本书叫《决战大数据》,本来是想请他来,但是由于时间的冲突,所以我今天就来转载 2014-12-08 09:46:44 · 1181 阅读 · 0 评论 -
Sequence of shopping carts in-depth analysis with R(1)
Although the sankey diagram from the previous post provided us with a very descriptive tool, we can consider it a rather exploratory analisys. As I mentioned, sequence mining can give us the opportu转载 2015-01-30 08:48:26 · 791 阅读 · 0 评论 -
Sequence of shopping carts analysis with R(0) – Sankey diagram
We studied how we can visualize the structure of a shopping cart in theprevious post. Although you can find a great deal of materials on how to analyze combinations of products in the shopping cart转载 2015-01-30 09:05:13 · 955 阅读 · 0 评论 -
Sequence of shopping carts in-depth analysis with R(3)– Sequence of events
This is the third part of the sequence of shopping carts in-depth analysis. We processed initial data in the required format, did the exploratory analysis and started the in-depth analysis inthe f转载 2015-01-30 09:04:04 · 883 阅读 · 0 评论 -
Shopping cart analysis with R(-1) – Multi-layer pie chart
In this post, we will review a very interesting type of visualization – the multi-layer pie chart – and use it for one marketing analytics task – the shopping cart analysis. We will go from the initia转载 2015-01-30 09:07:30 · 989 阅读 · 0 评论 -
白宫正式命名DJ Patil担任首席数据科学家和制定数据策略的副首席技术官
白宫今天正式命名DJ Patil担任首席数据科学家和制定数据策略的副首席技术官。是的,这个头衔非常的拗口,且职位的缩写达到了10个字母,CDSaDCTODT。不过重要的是他曾在LinkedIn、eBay、PayPal、Skype和风险投资公司Greylock Partners等诸多硅谷公司工作过,积累了丰富的经验,在上任之后将会扮演负责政府大数据应用开发专家的角色,尤其是针对奥巴马的医疗改革方案。转载 2015-02-23 22:23:05 · 994 阅读 · 0 评论 -
Why you should learn R first for data science
Over and over, when talking with people who are starting to learn data science, there’s a frustration that comes up:I don’t know which programming language to start with.”And it’s not just pro转载 2015-02-13 08:55:38 · 821 阅读 · 0 评论 -
python的数据科学资源
http://xccds1977.blogspot.jp/search?updated-max=2014-10-16T10:11:00%2B08:00&max-results=5&start=14&by-date=falsepython和R是数据科学家手中两种最常用的工具,R已经介绍的太多了,后续我们来玩玩python吧。从出身来看,R是统计学家写的,python是计算机科学家写的,两者的出生转载 2015-03-10 15:20:03 · 1215 阅读 · 0 评论 -
Ranking #1 on Kaggle for Predicting Consumer Debt Default
Introduction to Predicting Credit DefaultThe goal of this challenge is two-pronged, to build a model that borrowers can use to help make the best financial decisions, and for the lenders to forese转载 2016-10-20 10:05:48 · 1341 阅读 · 1 评论 -
The Mathematics of Machine Learning
This post was first published on my Linkedin page and posted here as a contributed post.In the last few months, I have had several people contact me about their enthusiasm for venturing into the转载 2016-07-10 08:55:09 · 1791 阅读 · 0 评论 -
The real prerequisite for machine learning isn’t math, it’s data analysis
When beginners get started with machine learning, the inevitable question is “what are the prerequisites? What do I need to know to get started?”And once they start researching, beginners freque转载 2016-05-17 10:51:13 · 839 阅读 · 0 评论 -
AirbnB uses R to scale data science
(This article was first published on Revolutions, and kindly contributed to R-bloggers)Airbnb, the property-rental marketplace that helps you find a place to stay when you're travelling, use转载 2016-04-06 11:54:44 · 750 阅读 · 0 评论 -
Package funModeling: data cleaning, importance variable analysis and model perfomance
(This article was first published on R - Data Science Heroes Blog, and kindly contributed to R-bloggers)Hi there This new package –install.packages("funModeling")– tries to cover wit转载 2016-02-11 21:09:51 · 819 阅读 · 0 评论 -
Weather Data Analysis Example:Part 3b
Part 3b: EDA with ggplot2In Part 3a I have introduced the plotting system ggplot2. I talked about its concept and syntax with some detail, and then created a few general plots, using t转载 2015-03-18 09:57:04 · 960 阅读 · 0 评论 -
Weather Data Analysis Example:Part 3a
Part 3a: Plotting with ggplot2We will start off this first section of Part 3 with a brief introduction of the plotting system ggplot2. Then, with the attention focused mainly on the synt转载 2015-03-18 09:57:04 · 1005 阅读 · 0 评论 -
Weather Data Analysis Example:Part 1
http://theanalyticalminds.blogspot.jp/2015/02/part-1-introduction.htmlPart 1: Introduction The ultimate goal of every data scientist is to extract as much valuable information as possible fr转载 2015-03-18 09:54:38 · 741 阅读 · 0 评论 -
Open Source Software Fuels a Revolution in Data Science
In this special guest feature, Neera Talbert of Revolution Analytics discusses the role of open source software in making data science the rising field it is today. Neera Talbert is Vice President,转载 2015-03-18 09:19:03 · 953 阅读 · 0 评论 -
Weather Data Analysis Example:Part 2
Part 2: Data PreparationIn Part 1 I have introduced the weather data set we will be using in this series of tutorials. We are now going to have the data prepared for the subsequent EDA. We转载 2015-03-18 09:55:35 · 681 阅读 · 0 评论 -
Sequence of shopping carts in-depth analysis with R(2) – Clustering
This is the second part of the in-depth sequence analysis. Inthe previous post, we processed data in the required format, plotted a Sankey diagram, and did some distribution, frequency, time lapse转载 2015-01-30 09:02:43 · 1038 阅读 · 0 评论 -
A non-comprehensive list of awesome things other people did in 2014
Editor's Note: Last year I made a listoff the top of my head of awesome things other people did. I loved doing it so much that I'm doing it again for 2014. Like last year, I have surely missed aweso转载 2014-12-20 23:31:44 · 678 阅读 · 0 评论 -
Using R — Callling C code with Rcpp
This entry is part 11 of 14 in the series Using RIn two previous posts we described how R can call C code with .C() and the more complex yet more robust option of calling C code with .Call().转载 2015-01-28 11:52:01 · 1013 阅读 · 0 评论 -
How to become a data scientist
转载 2014-11-12 09:06:18 · 818 阅读 · 0 评论 -
数据分析工作能否外包?
摘要: 人们对大数据兴趣激增,数据分析团队也显得供不应求。大数据能让企业变得更有效率,提升整体的竞争力。具备高级数据分析能力的公司已经找到了构建长期优势的方法。例如联邦快递在过去几年里就已经靠内部的专业数据分 ... 人们对大数据兴趣激增,数据分析团队也显得供不应求。大数据能让企业变得更有效率,提升整体的竞争力。具备高级数据分析能力的公司已经找到了构建长期优势的方法。例如联邦快递在过去几年转载 2014-08-18 09:13:33 · 4103 阅读 · 0 评论 -
什么是数据科学家与数据科学
仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。一、数据科学家的起源 "数据科学"(DataScience)起初叫"datalogy "。最初在1966年由Peter Naur提出,用来代替"计算机科学"(丹麦人,2005年图灵奖得主,丹麦的计算机学会的正式名称就叫Danish Society of转载 2014-09-12 10:39:18 · 1642 阅读 · 0 评论 -
Google和facebook如何应用R进行数据挖掘
在R用户组织的主题为“R与预测分析科学”的panel会议上,有来自工业界的四位代表发表了讲话,介绍各自在工业界是如何应用R进行数据挖掘。他们分别是:Bo Cowgill, GoogleItamar Rosenn, FacebookDavid Smith, Revolution ComputingJim Porzak, The Generations Network 他们转载 2014-08-21 09:32:35 · 1012 阅读 · 0 评论 -
如何挑西瓜:一个学物理的吃货的感言
原文链接http://multiverse.lamost.org/blog/5803转载 2014-07-06 11:49:19 · 1565 阅读 · 0 评论 -
数据分析与挖掘书单推介
数据分析与挖掘书单推介本文来自: 人大经济论坛转载 2014-07-06 10:15:21 · 804 阅读 · 0 评论 -
Python正在取代R,成为数据科学界新宠(转)
R:不是真正的语言人们学习R很困难的一部分原因是,它并不是一种真正的编程语言。John Cook是一位R专家,他曾说:“R是一个做统计的交互环境,不是一种真正的编程语言。把R看做包含有编程语言的交互环境会更有帮助。”但正如Bob Muenchen强调的,R甚至对于那些精通SAS和SPSS数据统计工具的人来说都是困难的。关于R为分析师降低了复杂性的问题,还有待争议,虽然R包含宏和矩阵转载 2014-06-26 11:38:47 · 722 阅读 · 0 评论 -
让R与Python共舞
原文网址: http://www.r66r.net/?p=129R(又称R语言)是一款开源的跨平台的数值统计和数值图形化展现 工具。通俗点说,R是用来做统计和画图的。R拥有自己的脚本语言和大量的统计、图形库(得益于开源社区),这让她看起来既美又实用。与其他同类软件(如 SPSS)相比,R的特点是纯命令行的,这倒也好,我们更应该把注意力放在数据本身,而非统计工具的UI。R虽说有一套自己的语言转载 2014-06-26 11:47:31 · 827 阅读 · 0 评论 -
北卡州立大学的数据分析学硕士项目排名大数据专业第一名
北卡州立大学的数据分析学硕士项目(Master of Science in Analytics,简称MSA),近日在《哈佛商业评论》(Harvard Business Review)公布的全美“大数据”专业排名中,被“顶置”榜首。排在后面的都是全美著名的理工名校,其中包括斯坦福、麻省理工、加州伯克利、哈佛以及卡耐基梅隆等。 《哈佛商业评论》评述现状称:虽然当前大数据话题火热,但实际上真有能力转载 2014-05-12 09:31:59 · 4052 阅读 · 0 评论 -
如何学习数据科学(@xccds)
如何学习数据科学 原文地址:http://xccds1977.blogspot.com/2013/01/blog-post.html本文翻译自一篇博客文章,作者是一名软件工程师,他描述了在五年时间内学习数据科学的经历和心得,他的学习途径包括了自学(书籍、博客、小项目),课程学习,教学讨论,会议交流和工作实践。一、入门1)自学(2 - 4个月)自学是起步的转载 2014-03-17 22:08:42 · 1471 阅读 · 0 评论 -
Kaggle上的泰坦尼克生还数据分析
数据准备先根据数据的codebook来给每列命名,同时预先设定类型123456789101112131415161718setwd("d:/course/kaggle/titanic/")train.col.types 'integer', # PassengerId 'factor', # Survived 'factor', # Pclass 'cha转载 2014-11-12 20:00:03 · 3832 阅读 · 0 评论 -
百度最强大脑在想什么? —— 36氪硅谷专访百度首席科学家 Andrew Ng
编者按:在去采访Andrew的路上,心里特别的没底气。总担心自己无法和学术大牛高智商怪兽级别的人物顺畅沟通,在前一天晚上还尝试看了一遍Andrew 关于COTS HPC 系统论文... 的摘要部分。但另一方面又有种异样的亲切感,终于可以在Coursera教学视频外,与现实生活中的Prof. Ng交流。Andrew身上的有着斯坦福教授,Google大脑创始人,百度首席科学家等等各种光环,但是转载 2014-11-12 16:22:09 · 3339 阅读 · 0 评论 -
数据科学家自我修养——一份数据科学的开放课程清单
最近一年以来,大数据这个概念被吹嘘的天花乱坠,仿佛你要是不说大数据就落伍了。继云计算之后,大数据已然成为IT行业的热点。《哈佛商业评论》更是宣称“数据科学家”是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。这里我不想重复什么是大数据,什么是数据科学,而是想以个人过去接近2年的通过MOOC(开放课程)来学习数据科学的实践来给出一份个人建议的数据科学学习之转载 2014-11-12 19:19:27 · 858 阅读 · 0 评论