实践纠偏观点下的数据科学家

本文在Creative Commons许可证下发布

观点一、数据科学家不是计算机科学家

  首先,因为他们不需要具备计算机科学家那样完整的计算机理论知识体系;其次,数据科学家需要更好地理解随机过程、实验设计及抽样,这些通常是统计学家擅长的领域。但是,数据科学家需要熟悉计算复杂度、算法设计、分布式架构和编程(R、SQL、No-SQL、Python、Java和C++)。还需要熟悉软件开发生命周期和精简架构以进行代码开发和团队协作。

  数据科学家还应该成为一两个应用领域内的专家。有可以分享的成功经验以及量化成功的指标。有商业洞察力,并能评估数据科学解决方案给客户带来的投资回报率。这就需要在某个横向领域内具备几年的业务经验和培训(运筹学、面向大规模数据集的应用统计学、计算机科学、工程学或者侧重于分析学科的MBA学位)。还少不了善于沟通。

 因此,可以说分析师名称只是适合于一个较为初级的角色。

在纵向上讲,在某个细分的领域有深厚的技术知识:

1、计算机科学家,熟悉所有排序算法的计算复杂度;

2、统计学家,精通特征值、奇异值分解及其数值稳定性和最大似然估计的渐进收敛性;

3、软件工程师,在编写Python代码(包括图形库)方面并将其应用于API开发和网络爬虫技术方面有多年经验;

4、数据库专家,在数据建模、数据仓库、图形数据库、Hadoop和No-SQL方面专业知识过硬;

5、预测建模师,具有贝叶斯网络、SAS软件、支持向量机方面的专业知识。

然而,深厚的行业专业知识对于数据科学家的成功是绝对必要的。在一些领域,如股票市场套利、网络广告套利等,如果不了解其复杂的商业模式,生态系统,周期和泡沫,以及繁杂的行规,就会注定失败。

因此,我认为数据科学家在横向上讲应该是业务分析师、统计学家、计算机科学家和领域专家的混合体。即包括计算机科学、统计学、数据库、机器学习、Python方面的知识。所提到行业知识还具有以下特点:

1、六西格玛概念;

2、在处理大型、复杂、混乱的数据集方面有成功的经验以及衡量成功的标准;

3、能够识别和确定真正需要解决的问题中所需要的数据集(外部的和内部的),所需要的数据库结构和指标方面;

4、深入掌握:计算复杂度、良好的采样与实验设计、健壮的统计学交叉验证、现代数据库设计以及编程语言(R、脚本语言、Mapreduce概念、SQL)

5、掌握高级Excel功能和可视化技术

6、能够创造实用工具,具备创新的思维

需要指出的是实际工作中有一块很重要的工作就是参与数据库设计和数据收集过程,识别那些对于价值发现最为有用的指标和外部数据源。健壮的交叉验证、置信区间和方差技术是提高精确度,衡量和量化不确定性的不二法宝。

  最后,实际工作中会用到3种主要的分析学方法:描述性分析、预测性分析和规范性分析。每种分析方法以不同的方式给机构带来商业价值。

观点二、自己的实践

从事工作——计算机网络架构、协议设计;量化投资

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
后台采用apache服务器下的cgi处理c语言做微信小程序后台逻辑的脚本映射。PC端的服务器和客户端都是基于c语言写的。采用mysql数据库进行用户数据和聊天记录的存储。.zip C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值