【数据科学】迄今最全面的数据科学应用总结:16个分析学科及落地应用

数据科学,数据挖掘,机器学习,统计学,运筹学等方面有什么不同?

在这里,我比较几个重叠的分析学科,来解释差异和共同点。除了历史原因,有时候除了别的东西外别无其他。有时候,差异是真实而微妙的。我还提供了典型的职位,分析类型以及传统上与每个学科相关的行业。带下划线的域是主要的子域。

首先,我们从描述数据科学这个新的学科开始。

职位包括数据科学家,首席科学家,高级分析师,分析总监等等。它涵盖了所有行业和领域,尤其是数字分析,搜索技术,市场营销,欺诈检测,天文学,能源,健康护理,社交网络,金融,法医学,安全(NSA),移动,电信,天气预报和欺诈检测。

项目包括分类学创建(文本挖掘,大数据),适用于大数据集的聚类,推荐引擎,模拟,统计评分引擎的规则系统,根本原因分析,自动出价,取证,外星行星检测以及恐怖分子的早期发现活动或流行病。数据科学的一个重要组成部分是自动化,机器到机器的通信,以及在生产模式下不间断运行的算法(有时是实时的),例如检测欺诈,预测天气或预测房价为每个家庭(Zillow)。

数据科学项目的一个例子是创建增长最快的数据科学Twitter个人资料,用于计算营销。它利用大数据,是病毒式营销/增长黑客策略的一部分,还包括自动化的高质量,相关联合内容生成(简而言之,数字出版3.0版)。

与大多数其他分析行业不同,数据科学家被认为具有良好的商业头脑和领域专业知识 - 他们倾向于成为企业家的原因之一。数据科学家有许多类型,因为数据科学是一门宽泛的学科。许多高级数据科学家掌握着他们的艺术/工艺,拥有全部的技能和知识;他们确实是招聘者找不到的独角兽。招聘经理和不知情的管理人员喜欢狭隘的技术技能,而不是深厚的,广泛的和专业化的业务领域的专业知识 - 当前教育系统的副产品,有利于学科孤岛,而真正的数据科学是孤立的破坏者。独角兽数据科学家(名词不当,因为他们并不稀奇 - 有些着名的风险投资家)通常担任顾问或高管。初级数据科学家往往更专注于数据科学的一个方面,拥有更多的热门技术(Hadoop,Pig,Cassandra),如果他们接受了适当的培训和/或有公司的工作经验, Facebook,谷歌,eBay,苹果,英特尔,Twitter,亚马逊,Zillow等。潜在候选人的数据科学项目可以在这里找到。

数据科学与重叠

计算机科学:计算复杂性,互联网拓扑和图论,Hadoop等分布式架构,数据管理(数据流和内存分析的优化),数据压缩,计算机编程(Python,Perl,R)以及处理传感器和流数据(设计自动驾驶的汽车)

统计学:包括多变量检验,交叉验证,随机过程,抽样,无模型置信区间的实验设计,但不包括对大数据诅咒的假设的p值或模糊测试

机器学习和数据挖掘:数据科学确实完全包含了这两个领域。

运筹学:数据科学包含大部分运筹学,以及旨在基于分析数据优化决策的任何技术。

商业智能:数据科学是设计/创建/识别重要指标和KPI,创建数据库模式(不管是否使用NoSQL),仪表板设计和可视化以及数据驱动策略以优化决策和投资回报率的每个BI方面。

与其他分析标准进行比较

机器学习:非常流行的计算机科学学科,数据密集型,部分数据科学与数据挖掘密切相关。机器学习是关于设计算法(如数据挖掘)的重点,但重点是生产模式的原型算法,设计自动更新自动系统(招标算法,广告定位算法),不断训练/重新训练/更新训练集/验证并改进或发现新的规则(欺诈检测)。 Python现在是ML开发的流行语言。核心算法包括聚类和监督分类,规则系统和评分技术。接近人工智能的子域(参见下面的条目)是深度学习。

数据挖掘:这个学科是关于设计算法来从相当大的和潜在的非结构化数据(文本挖掘)中提取洞察力,有时被称为金块发现,例如在查看5000万行数据后挖掘一个巨大的僵尸网络。技术包括模式识别,选择,聚类,监督分类,并包含一些统计技术(尽管没有使用大多数统计方法的p值或置信区间)。相反,重点是强大的,数据驱动的,可扩展的技术,对发现原因或可解释性没有太大的兴趣。因此数据挖掘与统计数据有一定的交集,是数据科学的一个子集。数据挖掘应用于计算机工程,而不是数学科学。数据挖掘者使用开源和Rapid Miner等软件。

预测建模:本身不是一门学科。预测建模项目遍布所有学科的所有行业。预测建模应用程序旨在基于过去的数据预测未来,通常但不总是基于统计建模。预测往往伴随着置信区间。预测建模的根源在统计学上。

统计:目前,统计主要是关于调查(通常用SPSS软件进行),理论学术研究,银行和保险分析(营销组合优化,交叉销售,欺诈检测,通常与SAS和R),统计编程,社会科学,全球变暖研究(和空间天气模型),经济研究,临床试验(制药业),医学统计学,流行病学,生物统计学和政府统计学。聘请统计人员的机构包括人口普查局,IRS,CDC,EPA,BLS,SEC和EPA(环境/空间统计)。需要安全检查的工作薪酬较高,而且相对安全,但制药行业的高薪工作(统计人员的金雁)受到外包,公司合并和承受医疗保健压力等诸多因素的威胁。由于保守的风险不利的医药行业的巨大影响,统计已经成为一个不适应新数据,不创新,数据科学松懈,工业统计,运筹学,数据挖掘,机器学习等领域的狭窄领域,在那里使用相同的聚类,交叉验证和统计训练技术,尽管以更自动的方式和更大的数据。 10年前被称为统计学家的许多专业人士,在过去几年里,他们的职位已经变成数据科学家或分析师。现代子领域包括统计计算,统计学习(更接近机器学习),计算统计(接近数据科学),数据驱动(无模型)推理,体育统计和贝叶斯统计(MCMC,贝叶斯网络和分层贝叶斯模型正在流行,现代技术)。其他新技术包括支持向量机,结构方程模型,预测选举结果和集成模型。

工业统计:非统计人员(具有良好统计培训的工程师)经常进行统计,从事工程项目,如产量优化或负载平衡(系统分析员)。他们使用非常实用的统计数据,他们的框架比传统统计更接近六西格玛,质量控制和运营研究。也发现在石油和制造业。所使用的技术包括时间序列,方差分析,实验设计,生存分析,信号处理(滤波,去噪,去卷积),空间模型,模拟,马尔可夫链,风险和可靠性模型。

数学优化:用单纯形算法,傅立叶变换(信号处理),微分方程和Matlab等软件解决业务优化问题。这些应用数学家在IBM,研究实验室,NSA(密码学)和金融行业(有时招聘物理或工程专业的毕业生)等大公司都有发现。这些专业人员有时会用统一的技术解决与统计学家完全相同的问题,尽管他们使用不同的名称。数学家们使用最小二乘法进行插值或外推;统计学家使用线性回归进行预测和模型拟合,但是两个概念都是相同的,并且依赖于完全相同的数学机器:只是描述相同事物的两个名字。然而,数学优化比运算研究更接近统计学,雇佣数学家而不是其他实践者(数据科学家)的选择往往是由历史原因决定的,尤其是对于像NSA或IBM这样的组织。

精算科学:只是使用生存模型的保险(汽车,健康等)统计的一个子集:预测何时死亡,根据您的健康状况(吸烟者,性别,既往疾病)确定您的医疗保险费用,以确定您的保险费。还预测极端的洪水和天气事件,以确定保费。后来的这些模式出乎意料地是错误的(最近),并导致了比预期更大的支出。由于某些原因,这是一个非常活跃,分散的统计人员社区,不再称自己的统计学家(职称是精算师)。他们看到他们的平均薪酬随着时间的推移而增长很好:对专业的限制和管理就像律师一样,除了保护主义以外,没有任何其他的原因可以提高薪水,减少合格申请人的数量。精算科学的确是数据科学(一个子领域)。

HPC:高性能计算本身并不是一门学科,但应该是数据科学家,大数据实践者,计算机科学家和数学家关心的问题,因为它可以重新定义这些领域的计算范式。如果量子计算成功,将彻底改变算法设计和实现的方式。 HPC不应该与Hadoop和Map-Reduce混淆:HPC与硬件相关,Hadoop与软件相关(尽管严重依赖Internet带宽和服务器配置以及邻近性)。

行动调查:缩写为OR。他们早在20年前就已经从统计中分离出来了,但是他们就像孪生兄弟,他们各自的组织(INFORMS和ASA)一起合作。 OR是关于决策科学和优化传统业务项目:库存管理,供应链,定价。他们大量使用马尔可夫链模型,蒙特卡洛模拟,排队和图论,以及诸如AIMS,Matlab或Informatica等软件。传统的大公司使用OR,新的和小的(初创公司)使用数据科学来处理定价,库存管理或供应链问题。许多运营研究分析师正在成为数据科学家,因为与OR相比,在数据科学方面有更多的创新和增长前景。另外,OR问题可以通过数据科学来解决。或者与六西格玛重叠(见下文),也解决了经济计量问题,在军队和国防部门有许多从业人员/应用。汽车交通优化是OR问题的一个现代例子,通过模拟,通勤者调查,传感器数据和统计建模来解决。

六个西格玛:摩托罗拉和通用电气几十年前就大力推广,这更多的是一种思维方式(一种商业哲学,如果不是一种崇拜),而不是一种纪律。用于质量控制和优化工程流程(参见本文中的工业统计的条目),由大型传统公司进行。他们有一个拥有27万名会员的LinkedIn小组,是包括我们数据科学小组在内的任何其他解析LinkedIn小组的两倍。他们的座右铭是简单的:把你的努力集中在20%的时间,产生80%的价值。应用简单的统计数据(我很同意简单的东西是必须的),这个想法是消除业务流程中的差异来源,使它们更可预测并提高质量。许多人认为六西格玛是旧的东西,将消失。也许,但是基本的概念是坚实的,将保持不变:这些也是所有数据科学家的基本概念。你可以说六西格玛是一个简单得多的简单操作研究版本(参见上面的条目),其中统计建模保持在最低限度。风险:非合格人员使用非强大的黑盒统计工具来解决问题,可能会导致灾难。在某些方面,六西格玛是一个更适合业务分析师(见下面的商业情报条目)比严重的统计学家更适合的学科。

定量分析:Quant人只是为华尔街工作的数据科学家,如高频交易或股市套利问题。他们使用C ++,Matlab,来自着名的大学,赚取大笔资金,但当投资回报率太南太快,就马上失去工作。他们也可以从事能源贸易。许多在经济衰退期间被解雇的人现在都在解决点击套利,广告优化和关键词招标等问题。数量有统计背景(少数),数学优化和工业统计。

人工智能:它回来了。与数据科学的交叉是模式识别(图像分析)和自动化(有些人会说智能)系统的设计,以执行各种任务,在机器对机器通信模式中,例如识别正确的关键字(和正确的出价) Google AdWords(付费点击广告系列每天涉及数百万个关键字)。我也考虑过智能搜索(创建一个搜索引擎,返回您期望的结果,比Google广泛得多)是数据科学中最大的问题之一,也可能是人工智能和机器学习问题。一个古老的AI技术是神经网络,但现在正在失去人气。相反,神经科学越来越受欢迎。

计算机科学:数据科学与计算机科学有一些重叠:Hadoop的和映射简化的实现,算法和计算的复杂性,以设计快速,可扩展的算法,数据管理以及网络拓扑映射,随机数生成,加密,数据压缩和隐写等问题。尽管这些问题也与统计科学和数学优化相重叠)。

计量经济学。为什么它与统计数据分开尚不清楚。许多分支机构脱离统计数据,因为它们变得不那么通用,并开始开发自己的特定工具。但简而言之,计量经济学在本质上是非常统计的,使用时间序列模型,如自回归过程。也与操作研究(本身与统计信息重叠!)和数学优化(单纯形算法)重叠。计量经济学家如ROC和效率曲线(六西格玛从业者也是如此,参见本文的相应条目)。许多人没有很强的统计背景,而Excel的是他们主要或唯一的工具。

数据工程:由大型组织中的软件工程师(开发人员)或架构师(设计师)执行&#x

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值