关于数据挖掘相关知识汇集

最新推荐文章于 2024-10-20 15:31:29 发布

XMM1990

最新推荐文章于 2024-10-20 15:31:29 发布

阅读量3.4k

点赞数

分类专栏：数据库数据挖掘

数据库同时被 2 个专栏收录

15 篇文章

订阅专栏

数据挖掘

8 篇文章

订阅专栏

1.什么是数据挖掘

这是个有意思的问题。

由于数据科学刚刚兴起，数据科学家作为一种新生职业被提出，数据研究高级科学家Rachel Schutt将其定义为”计算机科学家、软件工程师和统计学家的混合体“。数据挖掘作为一个学术领域，横跨多个学科，涵盖了统计学、数学、机器学习和数据库等，此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。注意每一分类都需要相当的行业经验。

而要明白某一事物的本质，就需要通过另一些近似的事物特性对比来说明。
就好像你单独提问什么是男人？很难解释对不对。

所以咱们来举个栗子简单看看：

一、分析报告

在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合，咱来写一篇文章分析。

孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。
二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环刀力量无穷。
所以在大战开始三百回合时候不相上下，结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手
最后二郎神赢了。分析报告完成。

二、统计分析

大圣二战杨戬。这次在二位大战之前做个数理统计来预测结果。

首先根据历史样本史书记载发现两人在之前的五百年里打过100次，其中孙悟空赢60次。
然后有记录显示，之前孙悟空和牛魔王战斗的胜率是80%，而杨戬斗牛魔王胜率是70%。
所以可以得出综合预测总体胜率是孙悟空赢面大。
结论依靠历史记录，使用样本预测总体，根据经验做出假设。统计分析完成。

三、数据挖掘

孙悟空和杨戬终极决战。这次咱们根据两位的详细资料（如家庭出身、教育背景、工作经验、婚育情况等）让计算机做协同过滤关联分析。计算机通过数据清洗建模后发现：

贫苦出身的孩子一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。
战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。
在都得到大师指点的情况下，贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。
样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。

综上所述，我们可知道：

论出身两位大神不分伯仲。一个从石头出来，一个是凡人与神仙结合所生。
悟空的师父菩提老祖（准提道人）和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高足所以前者更胜一筹。
斗战胜佛战斗经验相对整日快活逍遥无忧无虑的二郎神来说更加丰富。
另孙行者由于样貌原因始终单身（好伤感）。
所以可以得出结论，这次大战孙悟空赢面大。数据挖掘完成。

四、最后总结：

分析报告一般是整个事件发生结束以后的总结（马后炮）。
统计分析能利用大量的历史样本来预测整个事件总体未来的走向（概率）。
数据挖掘则透过事件的表象发现隐藏在背后的蛛丝马迹，从而找到潜伏的规律以及看似无关事物之间背后的联系。

以上，祝挖掘快乐：）

数据挖掘，不是简单的把数据呈现出来，而是要挖掘出数据之间隐藏着的不知道的关系、信息。
可以用，数据会说话来描述。
技术分类：预言：用历史预测未来；描述：了解数据中潜在的规律。

相关技术包括：关联，序列发现，分类，聚集，异常检测，汇总，回归，时间序列分析。
可以一个个学习。

数据挖掘的核心是算法。

PS：今天刚刚开始上数据挖掘的课程，把课堂上的现学现卖一下。

2.数据分析

2015年1月18号新增书籍已近在下方显示，请查看！
-----------------------------------
2015年1月12号
我和几个英国的朋友开的微信公众账号，为大家分享学习数据分析的方法和书籍。欢迎添加：soton2014sky

扫扫二维码，添加账号
———————————————————————————————————————————

2014年11月1号
没想到会有这么多的朋友联系我，真的很意外，也很感谢各位的信任。我自己也决定不断的跟新书籍内容，给大家带来更多的最新知识。。。。。。
————————————————————————————————————————————————————————————————————————————————————

很多人都问过我这样一个问题：作为一个文科生，你是怎么学习数据分析的？
这个问题其实很好回答，一是兴趣，二是需求。我本科学的是市场营销，硕士学的时数据挖掘。其实我个人觉得，大数据时代下的市场营销越来越离不开数据分析。
以上都是废话！下面是干货！

我讲数据分析分为四个主要部分和一个额外部分，请看下图：

这是我给所有新人第一次接触数据分析同学的建议。任何一门知识的学习都是循序渐进，有由简入难。下面是我针对每一个部分给出的详细书单。在给出书单前我(想说几句：

书籍大部分都是全英文版本的，只有少量趣味书籍是中文的（因为中文书籍优秀的真的不多）。至于为什么要用全英文，我会在下面给出一些简单的说明
核心篇是最最最最最重要的，你可能需要看两遍，三遍，甚至四遍，五遍。。。在以后的中级或者高级学习中，你还需要不断的回顾核心篇内容！我本人至少看了有10遍，现在有时还是需要回到书本当中翻阅。
中级篇当初我首先推荐R。原因很多，我就只说一个：免费

为什么要用英文呢？我用几句最简单的话来说一下原因（原谅我中文不好，说不出高大上的原因）。请看图：

下面请看书单：
核心篇

新手篇：
中级篇:三个部分
第一部分： SAS
第二部分： SPSS
第三部分： R

高级篇：走到这里，实属不容易。原本我想继续推荐书籍，可是我发现当大家真的走到高级这一步的时候，其实已经不需要书籍的引导了。虽然如此，我还是强烈推荐一本书：

又是WIELY 出品，质量不用怀疑。我可以担保，如果你真的能弄清楚这本书上的每一个模块，那么数据挖掘建模你基本上已经搞定了。

额外：这是针对网页分析的，我只推荐三本书：作者Avinash Kaushik,请大家谷歌一下，然后看一下右面的介绍就OK。文字形容这个家伙都是多余的，曾经来我们学校开讲座的时候，队伍是排到酒吧门口的（校园的酒吧）。

书籍就这么多。当然，还有更多经典的书籍值得我们学习，但是每个人的时间是有限的。比如说R，我觉得这方面的资料和书籍你这辈子也看不完，我推荐的R in action，大家可以去看看评价（请记住：我说的是英文）。我觉得，学完知识最重要的还是要去不断的实践，不断的去思考。书看太多未必是好事，有时会迷失在一个理论里而走不出来，我当初学神经网络，差点把自己搞成神经病！！

番外篇：上面所有的书籍我都有高清正版的PDF格式，本来是放在网盘共享的，可是被侵权删除了。我也试过在某宝上卖过这些书，可是结果是“呵呵”。很多书籍是我在英国购买或者专有账户下载的，中文书籍可能侵权，但是英文绝对没有侵权！本来在欧洲，基本上主流教材都会有高清PDF格式供使用的。电子化书籍是一个大趋势，可是我们国内似乎还没有认识到这一点！

$\rightarrow$ 7月30 号修改
好多同学私信我让我发份电子稿给他们，由于本人目前还在英国，电子邮件发送太慢。我分享到了Dropbox 给大家免费下载。当然，我也把这些书籍都给了我一个做数据分析培训的同学，大家也可以去购买（有些专业书，也是我自己当年花钱购买的）。两种方式，大家自己随意选择。

8月8号修改
好奇怪，我这个答案只有十几个赞，可是给我私信要书的朋友至少有50多个。。这是为什么。
我分享到dropbox供大家免费下载了，可是很多朋友说下载出现问题，我也不知道怎么回事。
索性我就挂某个网站上卖了，也就几十块钱，邮箱给大家。我想正在想学东西的人不会在乎这几十块钱吧。挂上去卖，一方面，我承认，赚点小钱，可是我真的想告诉你，你买一份的钱都不够我在这边吃一顿午饭的，所以赚钱不是目的，我不缺钱，就是图个新鲜。二，通过卖出去这种方式，也是监督自己希望能够尽量回答大家提出的问题，毕竟人家花钱了。三，我觉得只要你花钱了，你才会稍微爱惜一点这些资料，很多人下载书不是看的，是用来屯的，好像书下载号之后你就懂了一样。如果您觉得这几十块不能够激起你惜书之情，请联系我，价格随便您抬，我很乐意！！！

2015年1月18号新增

今天增加三本书籍，主要是针对火的不行的两门开源语言：R和PYTHON
这本书也是我最近一直研读的书籍，作者是Pandas包的开发者，其对python的见解非常深厚。该书介绍了python中常用的几个数据分析包，学完这本书，基本上数据处理这一块你就能驾驭了！！
推荐指数：五星

可视化是数据分析的一门艺术，在R语言里有一个神一样的包叫做ggplot2，其以绘图简单，优美，灵活，简称信达雅而出名，这也是我现在还继续使用的R的最主要的原因。而这本书是绝对是市面上最好的学习ggplot的教材，大量的实战案例，让你学的根本就停不下来。
推荐指数：四星

大头系列的书在国内已经很流行了，这本书我依旧继承了大头特色，简单，生动。缺点还是那句话，废话有点多。
推荐指数：三星

以上书籍都已经一起打包在我们的电子教材里！

2015年1月12号
好吧。我真的只能贴链接了，如果违规，请删帖！！！
数据分析新手菜鸟数据分析教材教程指导 spss sas-淘宝网

3.培养数据分析的能力

如果想深入学习数据分析的话建议了解一些数据挖掘的知识。

谈一些个人的工作经验，希望对后来人有帮助。首先总结下平时数据分析的一般步骤。

---------------------------浓缩精华版--------------------------------

第一步：数据准备：（70%时间）

获取数据（爬虫，数据仓库）
验证数据
数据清理（缺失值、孤立点、垃圾信息、规范化、重复记录、特殊值、合并数据集）
使用python进行文件读取csv或者txt便于操作数据文件（I/O和文件串的处理，逗号分隔）
抽样（大数据时。关键是随机）
存储和归档

第二步：数据观察（发现规律和隐藏的关联）

单一变量：点图、抖动图；直方图、核密度估计；累计分布函数
两个变量：散点图、LOESS平滑、残差分析、对数图、倾斜
多个变量：假色图、马赛克图、平行左边图

第三步：数据建模

推算和估算（均衡可行性和成本消耗）
缩放参数模型（缩放维度优化问题）
建立概率模型（二项、高斯、幂律、几何、泊松分布与已知模型对比）

第四步：数据挖掘

选择合适的机器学习算法（蒙特卡洛模拟，相似度计算，主成分分析）
大数据考虑用Map/Reduce
得出结论，绘制最后图表

循环到第二步到第四步，进行数据分析，根据图表得出结论完成文章。

------------------------------业务分析版--------------------------------

“无尺度网络模型”的作者艾伯特-拉斯洛·巴拉巴西认为——人类93%的行为是可以预测的。数据作为人类活动的痕迹，就像金矿等待发掘。但是首先你得明确自己的业务需求，数据才可能为你所用。

1. 数据为王，业务是核心

了解整个产业链的结构
制定好业务的发展规划
衡量的核心指标有哪些

有了数据必须和业务结合才有效果。首先你需要摸清楚所在产业链的整个结构，对行业的上游和下游的经营情况有大致的了解。然后根据业务当前的需要，指定发展计划，从而归类出需要整理的数据。最后一步详细的列出数据核心指标（KPI），并且对几个核心指标进行更细致的拆解，当然具体结合你的业务属性来处理，找出那些对指标影响幅度较大的影响因子。前期资料的收集以及业务现况的全面掌握非常关键。

2. 思考指标现状，发现多维规律

熟悉产品框架，全面定义每个指标的运营现状
对比同行业指标，挖掘隐藏的提升空间
拆解关键指标，合理设置运营方法来观察效果
争对核心用户，单独进行产品用研与需求挖掘

发现规律不一定需要很高深的编程方法，或者复杂的统计公式，更重要的是培养一种感觉和意识。不能用你的感觉去揣测用户的感觉，因为每个人的教育背景、生活环境都不一样。很多数据元素之间的关系没有明显的显示，需要使用直觉与观察（数据可视化技术来呈现）。

3. 规律验证，经验总结

发现了规律之后不能立刻上线，需要在测试机上对模型进行验证。

P.S.数学建模能力对培养数感有一定的帮助

数学中国 (数学建模)-最专业的数学理论研究、建模实践平台

以上，有时间再补充。

4.数据科学家

版本更新，2014年5月14日更新一些内容。

如果展开讲，这个问题可以写一篇综述了。最近刚好有空，打算认真写写。

仅仅在几年前，数据科学家还不是一个正式确定的职业，然而一眨眼的工夫，这个职业就已经被誉为“今后十年IT行业最重要的人才”了。

一、数据科学家的起源

"数据科学"（DataScience）起初叫"datalogy "。最初在1966年由Peter Naur提出，用来代替"计算机科学"（丹麦人，2005年图灵奖得主，丹麦的计算机学会的正式名称就叫Danish Society of Datalogy，他是这个学会的第一任主席。Algol 60是许多后来的程序设计语言，包括今天那些必不可少的软件工程工具的原型。图灵奖被认为是“计算科学界的诺贝尔奖”。）

1996年，International Federation of Classification Societies (IFCS)国际会议召开。数据科学一词首次出现在会议（Data Science, classification, and related methods）标题里。

1998年，C.F. Jeff Wu做出题为“统计学=数据科学吗？的演讲，建议统计改名数据的科学统计数据的科学家。（吴教授于1987年获得COPSS奖，2000年在台湾被选为中研院院士，2004年作为第一位统计学者当选美国国家工程院院士，也是第一位华人统计学者获此殊荣。）

2002年，国际科学理事会：数据委员会科学和技术（CODATA）开始出版数据科学杂志。

2003年，美国哥伦比亚大学开始发布数据科学杂志，主要内容涵盖统计方法和定量研究中的应用。

2005年，美国国家科学委员会发表了"Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century"，其中给出数据科学家的定义：

"the information and computer scientists, database and software and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection"

信息科学与计算机科学家，数据库和软件工程师，领域专家，策展人和标注专家，图书管理员，档案员等数字数据管理收集者都以可成为数据科学家。它们主要任务是："进行富有创造性的查询和分析。"

2012年，O'Reilly媒体的创始人 Tim O'Reilly 列出了世界上排名前7位的数据科学家。

Larry Page，谷歌CEO。
Jeff Hammerbacher，Cloudera的首席科学家和DJ Patil，Greylock风险投资公司企业家。
Sebastian Thrun，斯坦福大学教授和Peter Norvig，谷歌数据科学家。
Elizabeth Warren，Massachusetts州美国参议院候选人。
Todd Park，人类健康服务部门首席技术官。
Sandy Pentland，麻省理工学院教授。
Hod Lipson and Michael Schmidt，康奈尔大学计算机科学家。

具体有时间再补充，感兴趣的朋友可以 Google Scholar 一下他们的文献。

关于数据科学家的更多讨论：
你能列出十个著名的女性数据科学家吗？ Can you name 10 famous data scientist women?
谁是最富有的数据科学家？ Who are the wealthiest data scientists?
请列出对大数据最具有影响力的20个人？ Who Are The Top 20 Influencers in Big Data?

二、数据科学家的定义

数据科学(Data Science)是从数据中提取知识的研究，关键是科学。数据科学集成了多种领域的不同元素，包括信号处理，数学，概率模型技术和理论，机器学习，计算机编程，统计学，数据工程，模式识别和学习，可视化，不确定性建模，数据仓库，以及从数据中析取规律和产品的高性能计算。数据科学并不局限于大数据，但是数据量的扩大诚然使得数据科学的地位越发重要。

数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。不远的将来，数据科学家们需要精通一门、两门甚至多门学科，同时使用数学，统计学和计算机科学的生产要素展开工作。所以数据科学家就如同一个team。

曾经投资过Facebook，LinkedIn的格雷洛克风险投资公司把数据科学家描述成“能够管理和洞察数据的人”。在IBM的网站上，数据科学家的角色被形容成“一半分析师，一半艺术家”。他们代表了商业或数据分析这个角色的一个进化。

for example – a data scientist will most likely explore and examine data from multiple disparate sources. The data scientist will sift through all incoming data with the goal of discovering a previously hidden insight, which in turn can provide a competitive advantage or address a pressing business problem. A data scientist does not simply collect and report on data, but also looks at it from many angles, determines what it means, then recommends ways to apply the data.

Anjul Bhambhri，IBM的大数据产品副总裁。

数据科学家是一个好奇的，不断质疑现有假设，能盯着数据就能指出趋势的人。这就好像在文艺复兴时期，一个非常想为组织带来挑战并从挑战中学习的人一样。

Jonathan Goldman，LinkedIn数据科学家。

2006年的6月份进入商务社交网站LinkedIn，当时LinkedIn只有不到800万用户。高德曼在之后的研究中创造出新的模型，利用数据预测注册用户的人际网络。具体来讲，他以用户在LinkedIn的个人资料，来找到和这些信息最匹配的三个人，并以推荐的形式显示在用户的使用页面上——这也就是我们熟悉的"你可能认识的人（People you may know）"。这个小小的功能让LinkedIn增加了数百万的新的页面点击量(数据挖掘的应用典型之一推荐系统）。

John Rauser, 亚马逊大数据科学家。

数据科学家是工程师和统计学家的结合体。从事这个职位要求极强的驾驭和管理海量数据的能力；同时也需要有像统计学家一样萃取、分析数据价值的本事，二者缺一不可。

Steven Hillion, EMC Greenplum数据分析副总裁。

数据科学家是具有极强分析能力和对统计和数学有很深研究的数据工程师。他们能从商业信息等其他复杂且海量的数据库中洞察新趋势。

Monica Rogati, LinkedIn资深数据科学家。

所有的科学家都是数据学家，因为他们整天都在和海量数据打交道。在我眼中，数据学家是一半黑客加一半分析师。他们通过数据建立看待事物的新维度。数据学家必须能够用一只眼睛发现新世界，用另一只眼睛质疑自己的发现。

Daniel Tunkelang，LinkedIn首席数据科学家。

我是bitly 首席科学家Hilary Mason的忠实崇拜者。关于这个新概念的定义我也想引用她的说法：数据科学家是能够利用各种信息获取方式、统计学原理和机器的学习能力对其掌握的数据进行收集、去噪、分析并解读的角色。

Michael Rappa，北卡罗莱纳州立大学教授。

尽管数据科学家这个名称最近才开始在硅谷出现，但这个新职业的产生却是基于人类上百年对数据分析的不断积累和衍生。和数据科学家最接近的职业应该是统计学家，只不过统计学家是一个成熟的定义且服务领域基本局限于政府和学界。数据科学家把统计学的精髓带到了更多的行业和领域。

林仕鼎，百度大数据首席架构师。

如果从广义的角度讲，从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数据科学家；而从狭义的角度讲，那些具有数据分析能力，精通各类算法，直接处理数据的人员才可以称为数据科学家。

最后引用Thomas H. Davenport（埃森哲战略变革研究院主任）和 D.J. Patil（美国科学促进会科学与技术政策研究员，为美国国防部服务）的话来总结数据科学家需要具备的能力：

数据科学家倾向于用探索数据的方式来看待周围的世界。（好奇心）
把大量散乱的数据变成结构化的可供分析的数据，还要找出丰富的数据源，整合其他可能不完整的数据源，并清理成结果数据集。（问题分体整理能力）
新的竞争环境中，挑战不断地变化，新数据不断地流入，数据科学家需要帮助决策者穿梭于各种分析，从临时数据分析到持续的数据交互分析。（快速学习能力）
数据科学家会遇到技术瓶颈，但他们能够找到新颖的解决方案。（问题转化能力）
当他们有所发现，便交流他们的发现，建议新的业务方向。（业务精通）
他们很有创造力的展示视觉化的信息，也让找到的模式清晰而有说服力。（表现沟通能力）
他们会把蕴含在数据中的规律建议给Boss，从而影响产品，流程和决策。（决策力）

三、数据科学家所需硬件技能

《数据之美 Beautiful Data》的作者Jeff Hammerbacher在书中提到，对于 Facebook 的数据科学家“我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的：

在任意给定的一天，团队的一个成员可以用 Python 实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在 Hadoop 上为数据密集型产品或服务设计和实现算法，或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术，我们创造了数据科学家这个角色。”

(1) 计算机科学

一般来说，数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说，就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。

(2) 数学、统计、数据挖掘等

除了数学、统计方面的素养之外，还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中，面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库，而且具备将结果进行可视化的高品质图表生成功能，并可以通过简单的命令来运行。此外，它还具备称为CRAN（The Comprehensive R Archive Network）的包扩展机制，通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。R语言虽然功能强大，但是学习曲线较为陡峭，个人建议从python入手，拥有丰富的statistical libraries，NumPy ，SciPy.org ，Python Data Analysis Library，matplotlib: python plotting。

(3) 数据可视化（Visualization）

信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析，开发Web原型，使用外部API将图表、地图、Dashboard等其他服务统一起来，从而使分析结果可视化，这是对于数据科学家来说十分重要的技能之一。

有哪些值得推荐的数据可视化工具？

(4) 跨界为王

麦肯锡认为未来需要更多的“translators”，能够在IT技术，数据分析和商业决策之间架起一座桥梁的复合型人才是最被人需要的。”translators“可以驱动整个数据分析战略的设计和执行，同时连接的IT ，数据分析和业务部门的团队。如果缺少“translators“，即使拥有高端的数据分析策略和工具方法也是于事无补的。

The data strategists’combination of IT knowledge and experience making business decisions makes them well suited to define the data requirements for high-value business analytics. Data scientists combine deep analytics expertise with IT know-how to develop sophisticated models and algorithms. Analytic consultants combine practical business knowledge with analytics experience to zero in on high-impact opportunities for analytics.

天才的”translators“非常罕见。但是大家可以各敬其职（三个臭皮匠臭死诸葛亮），数据战略家可以使用IT知识和经验来制定商业决策，数据科学家可以结合对专业知识的深入理解使用IT技术开发复杂的模型和算法，分析顾问可以结合实际的业务知识与分析经验聚焦下一个行业爆点。

推荐关注： https://www.facebook.com/data

四、数据科学家的培养

位于伊利诺伊州芝加哥郊外埃文斯顿市的美国名牌私立大学——西北大学（Northwestern University），就是其中之一。西北大学决定从2012年9月起在其工程学院下成立一个主攻大数据分析课程的分析学研究生院，并开始了招生工作。西北大学对于成立该研究生院是这样解释的：“虽然只要具备一些Hadoop和Cassandra的基本知识就很容易找到工作，但拥有深入知识的人才却是十分缺乏的。”

此外，该研究生院的课程计划以“传授和指导将业务引向成功的技能，培养能够领导项目团队的优秀分析师”为目标，授课内容在数学、统计学的基础上，融合了尖端计算机工程学和数据分析。课程预计将涵盖分析领域中主要的三种数据分析方法：预测分析、描述分析（商业智能和数据挖掘）和规范分析（优化和模拟），具体内容如下。

(1) 秋学期
* 数据挖掘相关的统计方法（多元Logistic回归分析、非线性回归分析、判别分析等）
* 定量方法（时间轴分析、概率模型、优化）
* 决策分析（多目的决策分析、决策树、影响图、敏感性分析）
* 树立竞争优势的分析（通过项目和成功案例学习基本的分析理念）

(2) 冬学期
* 数据库入门（数据模型、数据库设计）
* 预测分析（时间轴分析、主成分分析、非参数回归、统计流程控制）
* 数据管理（ETL（Extract、Transform、Load）、数据治理、管理责任、元数据）
* 优化与启发（整数计划法、非线性计划法、局部探索法、超启发（模拟退火、遗传算法））

(3) 春学期
* 大数据分析（非结构化数据概念的学习、MapReduce技术、大数据分析方法）
* 数据挖掘（聚类（k-means法、分割法）、关联性规则、因子分析、存活时间分析）
* 其他，以下任选两门（社交网络、文本分析、Web分析、财务分析、服务业中的分析、能源、健康医疗、供应链管理、综合营销沟通中的概率模型）

(4) 秋学期
* 风险分析与运营分析的计算机模拟
* 软件层面的分析学（组织层面的分析课题、IT与业务用户、变革管理、数据课题、结果的展现与传达方法）

（EMC的在线课程：Data Science and Big Data Analytics Training，收费T_T，大家可以了解下学习路径）

(5)分享一些免费的课程
以下课程免费，讲师都是领域的专家，需要提前报名，请注意开班的时间。

Coursera.org：统计学。
Coursera.org：机器学习。
Coursera.org：数据分析的计算方法。
Coursera.org：大数据。
Coursera.org：数据科学导论。
Coursera.org：数据分析。

名校课程，需要一定的英语基础和计算机基础：

Statistical Thinking and Data Analysis：麻省理工学院的统计思维与数据分析课。概率抽样，回归，常见分布等。
Data Mining | Sloan School of Management：麻省理工学院的数据挖掘课程，数据挖掘的知识以及机器学习算法。
Rice University Data Visualization：莱斯大学的数据可视化，从统计学的角度分析信息可视化。
Harvard University Introduction to Computing, Modeling, and Visualization: 哈佛大学，如何在数学计算与数据交互可视化之间架起桥梁。
UC Berkeley Visualization：加州大学伯克利分校数据可视化。
Data Literacy Course -- IAP：两个MIT的数据研究生，如何分析处理可视化数据。
Columbia University Applied Data Science：哥伦比亚大学，数据分析方法。需要一定的数据基础。
SML: Systems：加州大学伯克利分校，可扩展的机器学习方法。从硬件系统，并行化范式到MapReduce+Hadoop+BigTable，非常全面系统。

五、数据科学家的前景

（EMC - Leading Cloud Computing, Big Data, and Trusted IT Solutions，关于数据科学家的研究）

Like the physical universe, the digital universe is large – by 2020 containing nearly as many digital bits as there are stars in the universe. It is doubling in size every two years, and by 2020 the digital universe – the data we create and copy annually – will reach 44 zettabytes, or 44 trillion gigabytes.

EMC预测，按照目前的情况数字宇宙以每两年一番的速度倍增，在2020年将到达44ZB（1ZB=1.1805916207174113e+21B）。EMC做出了5点比较大胆的预测。

In 2013, while about 40% of the information in the digital universe required some type of data protection, less than 20% of the digital universe actually had these protections.
Data from embedded systems, the signals from which are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% in 2020.
In 2013, less than 20% of the data in the digital universe is “touched” by the cloud, either stored, perhaps temporarily, or processed in some way. By 2020, that percentage will double to 40%.
Most of the digital universe is transient – unsaved Netflix or Hulu movie streams, or Xbox One gamer interactions, temporary routing information in networks, sensor signals discarded when no alarms go off, etc. – and it is getting more so. This is a good thing, because the world’s amount of available storage capacity (i.e., unused bytes) across all media types is growing slower than the digital universe. In 2013, the available storage capacity could hold just 33% of the digital universe. By 2020, it will be able to store less than 15%.
In 2014, the digital universe will equal 1.7 megabytes a minute for every person on Earth.

Between 2013 and 2020 the division of the digital universe between mature and emerging markets (e.g., China) will switch – from 60% accounted for by mature markets to 60% of the data in the digital universe coming from emerging markets.

EMC预测在2017年左右新兴的市场将超越成熟市场，东亚国家是最具潜力的引爆点。（大家是不是有点小激动，前景一片光明）

六、结束语

推荐网站：

Data Science Central （数据科学中心，大牛云集，资源丰富，讨论者热情，各种课程）

祝每一个DMer都挖掘到金矿和快乐：）

参考文献：

[1].Data Scientists: The Definition of Sexy

[2].《大数据的冲击》. 城田真琴. 野村综合研究所创新开发部高级研究员、IT分析师，日本政府“智能云计算研究会”智囊团成员

[3].麦肯锡. Big data: The next frontier for innovation, competition, and productivity

[4].EMC. Executive Summary: Data Growth, Business Opportunities, and the IT Imperatives

[5].EMC Greenplum's Steven Hillion on What Is a Data Scientist?

[6].LinkedIn's Monica Rogati On "What Is A Data Scientist?"

[7].IBM - What is a Data Scientist?

[8].Data Science and Prediction

[9].The key word in “Data Science” is not Data, it is Science

[10].Data Science: How do I become a data scientist?

[11].A Practical Intro to Data Science

[12].解码数据科学家

5.如何系统地学习数据挖掘

数据挖掘：What？Why？How？
这个问题思考了很久，作为过来人谈一谈，建议先看下以前的一些回答。

磨刀不误砍柴工。在学习数据挖掘之前应该明白几点：

数据挖掘目前在中国的尚未流行开，犹如屠龙之技。
数据初期的准备通常占整个数据挖掘项目工作量的70%左右。
数据挖掘本身融合了统计学、数据库和机器学习等学科，并不是新的技术。
数据挖掘技术更适合业务人员学习（相比技术人员学习业务来的更高效）
数据挖掘适用于传统的BI（报表、OLAP等）无法支持的领域。
数据挖掘项目通常需要重复一些毫无技术含量的工作。

如果你阅读了以上内容觉得可以接受，那么继续往下看。

学习一门技术要和行业靠拢，没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的（十年前做网页设计都能成立公司），一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了，一方面有利于抓住用户痛点和刚性需求，另一方面能够累计行业经验，使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到，这样会失去你的核心竞争力。

一、目前国内的数据挖掘人员工作领域大致可分为三类。

1）数据分析师：在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询，商务智能，出分析报告。
2）数据挖掘工程师：在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。
3）科学研究方向：在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。

二、说说各工作领域需要掌握的技能。
(1).数据分析师

需要有深厚的数理统计基础，但是对程序开发能力不做要求。
需要熟练使用主流的数据挖掘（或统计分析）工具如Business Analytics and Business Intelligence Software（SAS）、SPSS、EXCEL等。
需要对与所在行业有关的一切核心数据有深入的理解，以及一定的数据敏感性培养。
经典图书推荐：《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。

(2).数据挖掘工程师

需要理解主流机器学习算法的原理和应用。
需要熟悉至少一门编程语言如（Python、C、C++、Java、Delphi等）。
需要理解数据库原理，能够熟练操作至少一种数据库（Mysql、SQL、DB2、Oracle等），能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。
经典图书推荐：《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。

(3).科学研究方向

需要深入学习数据挖掘的理论基础，包括关联规则挖掘（Apriori和FPTree）、分类算法（C4.5、KNN、Logistic Regression、SVM等) 、聚类算法（Kmeans、Spectral Clustering）。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。
相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing，因为R软件是完全免费的，而且开放的社区环境提供多种附加工具包支持，更适合进行统计计算分析研究。虽然目前在国内流行度不高，但是强烈推荐。
可以尝试改进一些主流算法使其更加快速高效，例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。
需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD，ICML，IJCAI，Association for the Advancement of Artificial Intelligence，ICDM 等等；还有数据挖掘相关领域期刊：ACM Transactions on Knowledge Discovery from Data，IEEE Transactions on Knowledge and Data Engineering，Journal of Machine Learning Research Homepage，IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ，Kaggle: Go from Big Data to Big Analytics等。
可以尝试为一些开源项目贡献自己的代码，比如Apache Mahout: Scalable machine learning and data mining ,myrrix等（具体可以在SourceForge或GitHub.上发现更多好玩的项目）。
经典图书推荐：《机器学习》《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》，英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。

三、以下是通信行业数据挖掘工程师的工作感受。

真正从数据挖掘项目实践的角度讲，沟通能力对挖掘的兴趣爱好是最重要的，有了爱好才可以愿意钻研，有了不错的沟通能力，才可以正确理解业务问题，才能正确把业务问题转化成挖掘问题，才可以在相关不同专业人才之间清楚表达你的意图和想法，取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力，是很难学到的；而其他的相关专业知识谁都可以学，算不上个人发展的核心竞争力。

说到这里可能很多数据仓库专家、程序员、统计师等等都要扔砖头了，对不起，我没有别的意思，你们的专业对于数据挖掘都很重要，大家本来就是一个整体的，但是作为单独一个个体的人来说，精力有限，时间有限，不可能这些领域都能掌握，在这种情况下，选择最重要的核心，我想应该是数据挖掘技能和相关业务能力吧（从另外的一个极端的例子，我们可以看，比如一个迷你型的挖掘项目，一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库，但是简单的Excel就足以胜任高打6万个样本的数据处理；他虽然不懂专业的展示展现技能，但是只要他自己看的懂就行了，这就无需什么展示展现；前面说过，统计技能是应该掌握的，这对一个人的迷你项目很重要；他虽然不懂编程，但是专业挖掘工具和挖掘技能足够让他操练的；这样在迷你项目中，一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了，甚至在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路，试问就是这个迷你项目，单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一个挖掘技术专家，都是无法胜任的）。这从另一个方面也说明了为什么沟通能力的重要，这些个完全不同的专业领域，想要有效有机地整合在一起进行数据挖掘项目实践，你说没有好的沟通能力行吗？

数据挖掘能力只能在项目实践的熔炉中提升、升华，所以跟着项目学挖掘是最有效的捷径。国外学习挖掘的人都是一开始跟着老板做项目，刚开始不懂不要紧，越不懂越知道应该学什么，才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的，但是从网上的一些论坛看，很多都是纸上谈兵，这样很浪费时间，很没有效率。

另外现在国内关于数据挖掘的概念都很混乱，很多BI只是局限在报表的展示和简单的统计分析，却也号称是数据挖掘；另一方面，国内真正规模化实施数据挖掘的行业是屈指可数（银行、保险公司、移动通讯），其他行业的应用就只能算是小规模的，比如很多大学都有些相关的挖掘课题、挖掘项目，但都比较分散，而且都是处于摸索阶段，但是我相信数据挖掘在中国一定是好的前景，因为这是历史发展的必然。

讲到移动方面的实践案例，如果你是来自移动的话，你一定知道国内有家叫华院分析的公司（申明，我跟这家公司没有任何关系，我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司，觉得华院还不错，比很多徒有虚名的大公司来得更实际），他们的业务现在已经覆盖了绝大多数中国省级移动公司的分析挖掘项目，你上网搜索一下应该可以找到一些详细的资料吧。我对华院分析印象最深的一点就是2002年这个公司白手起家，自己不懂不要紧，一边自学一边开始拓展客户，到现在在中国的移动通讯市场全面开花，的确佩服佩服呀。他们最开始都是用EXCEL处理数据，用肉眼比较选择比较不同的模型，你可以想象这其中的艰难吧。

至于移动通讯的具体的数据挖掘的应用，那太多了，比如不同话费套餐的制订、客户流失模型、不同服务交叉销售模型、不同客户对优惠的弹性分析、客户群体细分模型、不同客户生命周期模型、渠道选择模型、恶意欺诈预警模型，太多了，记住，从客户的需求出发，从实践中的问题出发，移动中可以发现太多的挖掘项目。最后告诉你一个秘密，当你数据挖掘能力提升到一定程度时，你会发现无论什么行业，其实数据挖掘的应用有大部分是重合的相似的，这样你会觉得更轻松。

四、成为一名数据科学家需要掌握的技能图。（原文： Data Science: How do I become a data scientist?）

人一能之，己十之；人十能之，己千之。果能此道矣，虽愚，必明；虽柔，必强。
与君共勉。

以上，祝各位挖掘到自己的快乐和金矿：）

编辑于 2014-04-24 35 条评论

肖智博，做过几个项目

云泽、赵露阳、楚lucifer 等人赞同

谢邀。

你的情况很正常，本科毕业的学生并不能完全看懂大部分算法的证明。本科学的概率论或者是统计学都是基础，而且我不得不说，这个基础很不牢固，我个人当初就是花了很多时间补那些当初本科课程里面没有讲但是后面研究很重要的“基础”知识。这么说吧，凡事当初概率论老师课上不讲的，后面研究都是有用的。因为本科的教育目的不是让所有人都读博士，所以老师对讲义内容的选取也是可以理解的，这个就需要你自己研究了。我之前回答过相关的问题，你可以去我的回答看。不过我觉得我之前的回答比较宽泛，并不一定能够完全回答你的问题。对于知识跳跃比较大的问题，没有好办法，你什么不会，就去看哪块。说起来很简单，其实挺耗费时间的，但是一旦踏实地学了进去，你的收获一定是大大的。另外一种可以稍微省力一些的方法是去搜索，现在有很多机器学习研究者会写一些浅显入门的内容，关于SVM的就有很多，你只要在Google里面搜一下，我想一定会找到很多图文并茂，深入浅出的内容的。

对于最后的括号内容 （中文最好），我劝你放弃这个想法。虽然说现在教材出版已经很快了，但是教材这个东西都不是最新的内容，甚至是英文教材。教材都是把经典的方法讲出来，当作既成事实，而一本出名的英文教材翻译成中文，再出版发行，这里面的时间间隔是按年为单位计算的。另外，很遗憾的说，本土出版的、质量优秀、被业界公认的、原创数据挖掘教程还没有（till 2013年1月30日，说不定将来会有呢）。所以，放弃这个念头吧。

下面推荐一些资源供你参考。

公开课。个人认为最好的系统学习机器学习和数据挖掘的方法是去参加公开课的学习。强烈推荐的是Andrew Ng的 Machine Learning课程，再coursera上有的，据说搜狐公开课也翻译了，不过没去搜狐看过，不知道翻译质量如何。除了Coursera之外，还有很多国外优秀大学的公开课平台供你选择。
国外大学关于机器学习和数据挖掘课程的主页。比如Andrew Ng在coursera上Machine Learning的前身就是Stanford CS229。美国欧洲的知名大学都有机器学习课程，课程主页上都有详细的syllabus，还有非常多非常棒的资源提供。而且国外的课程内容都是会每年更新的，所以跟这种课程也能学到很多东西。具体有哪些，你可以自己搜一下，on the top of my head，CMU Andrew Moore的课程很老很经典，Eric Xing的课程很新很棒！Jerry Zhu的CS 731 Advanced Artificial Intelligence，还有 Stanford CS369M Algorithms for Massive Data Set Analysis。
龙星计划。这个好像知乎上提的很少，大多数研究者也不太清楚。摘抄一下：龙星计划----计算机科学技术学术交流系列活动是一个杰出的海外华人教授回国系统讲授研究生课程的计划。由中国科学院资助,龙星计划委员会负责, 设在中国科学院计算技术研究所的龙星计划办公室提供日常服务。个人极力推崇的是2010年Eric Xing教授和Feifei Li教授在上海那期的机器学习课程，两位老师都非常负责任，内容极为翔实。听说2012年的内容也不错，网上也有视频，你可以找来听听。

哦，上面的内容都不是看书，具体看什么书，我之前也写过，你自己看一下我的回答吧。我不想每个回答里面都贴自己之前回答的链接。