如今,全球正在加速从IT时代迈向DT时代,越来越多的国家推出发展战略,期望通过建立大数据竞争优势,巩固其在该领域的领先地位。在国家大数据战略的推动下,数据产业得以迅速发展,同时对人才的需求也日益迫切。如何进行数据科学的学科建设、培养人才以满足行业需求,成为了教育界面临的一大挑战,但也为该学科的发展提供了契机。
今天,我们将尝试分析英美高校如何进行数据科学领域人才培养,解析数据科学专业人才的成长发展路径,希望能为国内高校管理者和参与者提供一些启发。
美国
1、美国领跑数据科学专业教育
在美国,数据科学专业是以数据分析学专业为基础发展而来的,可追溯至2007年北卡罗来纳州立大学率先设立的数据分析硕士学位。与统计学和计算机科学与技术等基础学科不同的是,数据分析学进一步抽象了这些底层科学中的数据问题,连接了包括统计学和计算机科学在内的基础学科与数据科学之间的空白,为数据科学这一新学科的出现奠定了直接基础。
从“数据分析学”向“数据科学”的实质性过渡出现在2013年左右,比较有代表性的是纽约大学于2013年新开设的数据科学硕士专业。之后,包括加州大学伯克利分校、约翰·霍普金斯大学、华盛顿大学、在内的多个学校设立了数据科学专业。
据Datascience Community数据显示,截至2017年5月,全球共有26个国家的356所高校开设了551个数据科学相关项目,其中美国高校开设的数据科学项目数量最多。数据显示,全美有245所高校共开设425个数据科学项目,占全球该类项目总量的77.1%。
在这些学校中,数据科学相关专业主要对应3类研究方向:
商业数据分析方向
计算机科学主修数据分析方向
商业管理主修数据分析方向
由于数据科学这一领域具有专业交叉性的特点,在数据科学人才的培养上,学历教育仍占主导地位,在学历教育项目中,又以研究生层次的项目最为普遍。
在研究生培养中,数据科学多作为某专业的细分方向。例如,斯坦福大学在统计学专业上设置了数据科学方向,要求申请者有修习数学和计算机基础课程的经历;南加州大学维特比工学院在研究生阶段开设了计算机科学-数据科学方向,要求申请者获得区域认可大学的工程、数学或自然科学本科学位。
在本科层次教育的项目上,数据科学多作为统计学院、计算机学院或商学院下的专业。
也有部分学校独立设置了数据科学系。例如,伍斯特理工学院在数据科学系下,分别设置了数据科学的1个本科项目、2个研究生项目、1个博士项目和一个非学历教育的课程认证。
另外,课程认证式的非学历教育在数据科学领域的人才培养中也发挥着重要作用。很多数据科学项目在以课程认证的形式进行,多招收需要进行紧技能培训或背景提升的在职人员。
2、具体项目举例
许多美国大学会将数据科学与原有特色专业相结合,在本校具有优势的领域中关注数据科学,并非常重视这一专业的实践性。
典型数据专业及其特色课程
以斯坦福大学为例,该学校的数据科学专业由统计系和计算与数学学院联合开设,授予的学位为数据科学方向的统计学理学硕士。共开设有29门课程,分为以下5个模块:
基础课程模块:数值线性代数、离散数学与算法、优化论、工程中的随机方法以及随机算法与概率分析;
数据科学模块:统计推理导论、回归模型及方差分析导论、统计模型导论、现代应用统计学:学习以及现代应用统计学:数据挖掘;
高级科学编程及高性能计算模块,涉及的课程有高级科学编程、并行计算导论、分布式算法与优化论、数值分析的并行方法、并行计算、并行计算机的架构及编程以及高级多核系统;
专业选修模块,设有以下课程:计算分子生物学中的表示与算法、数据驱动型医学、面向现代生物学的统计学、社会与信息网络分析、机器学习、面向视觉认知的卷积神经网络、海量数据集的挖掘、计算机图形学、地理统计学、基于大数据的商务智能、人类神经影像学方法和数据计算范式;
实战模块,包括Capstone项目和独立学习项目。
斯坦福大学此专业的人才培养目标侧重的是统计学家,而并非是数据科学家。其最突出的特点是将数据科学作为统计学的一个方向,将培养出面向数据科学的统计学家。因此,该专业与其他学校的数据科学专业不同,强调的是数据科学与统计学的深度融合。
英国
1、英国政府大力支持数据科学教育
去年,英国政府发布《2017年英国人工智能产业发展报》(以下简称“报告”),指出“我们的愿景是让英国成为世界上最适合发展和部署人工智能的国家”。作为AI发展的基础要素,在大数据建设中,英国持续性投入大笔资金进行技术开发,包括在政府数据分析项目中展开大数据技术的应用,以高等学府为依托投资兴办大数据研究中心,带动牛津大学、伦敦大学等著名高校开设以大数据为核心业务的专业等。
2015年,英国工程和物理科学委员会(EPSRC)联合剑桥大学、爱丁堡大学、牛津大学、华威大学与伦敦大学学院这5所英国名校一起,出资4200万美元成立了阿兰·图灵研究所,研究AI在国防安全、健康、计算技术、数据中心工程,以及金融和智能城市等领域的应用,并帮助培训新一代数据科学家。此外,英国还建立了阿兰数据研究集团、开放数据研究所、国家数据创新中心和皇家统计协会数据科学分部等。
在如此大环境下,数据科学专业已经从三、四年前的小众专业成为竞争最激烈的专业之一,申请的人数很多,但是可供选择的学校较少。因此,报告还指出,要加大教育投入,建议企业加大投入建立本科人才的培养程序;鼓励现有本科人才继续深造,通过一年期学习,将计算机和数据科学以外的人才培养成AI领域的研究生;吸引不同学科背景的研究生,到著名大学学习,为AI领域培养大批博士和博士后人才;开展网络课程教学,培育技术性劳动人才;在阿兰·图灵研究所下设图灵AI工作伙伴,吸引全世界最好的相关人才,投入巨资让他们在英国潜心研究。
2、具体项目举例
下表列举了几所开设数据科学相关专业的英国高校。
在英国,不同大学开设的数据科学专业教育同样侧重点各有不同。纵观英国G5名校,数据科学项目已不再只是理工科、商科学生的选择目标,文科生也可以选择相关专业进行学习,参与进数据革命的浪潮。例如,华威大学开设的两个数据科学专业,大数据与数字期货理学硕士项目,最大的特点是没有学生背景要求,而大数据与定量方法专业则开设在国际政治学院旗下。该专业与传统数据科学家不同,更加侧重在政治学科领域核心以及行业领先的数据计量方法。
另外,英国高校十分重视与相关产业及其技术专家的联系,使学校的研究与产业发展同步,鼓励学生在企业或政府的大数据实际应用中学习。
以伦敦城市大学为例,该学校的数据科学专业由数学、计算机与工程学院和计算机系联合开设,授予的学位为数据科学理学硕士,其课程体系由核心模块、选修模块和综合训练课程3部分组成。每个模块包括动手实验室教程和课程作业。其中,核心模块包括数据科学原理、机器学习、大数据、神经计算、可视分析学、研究方法与专业问题;选修课程有高级并发编程、高级数据库、信息检索、数据可视化、数字信号处理及音频编程、云计算、计算机视觉、软件代理等。综合训练课程与其他学校不同,并非以小组形式完成,而是以学生在指导教师或合作企业的指导下独立完成。选题要求必须为来自实际部门的真实数据及现实问题。
该专业的人才培养定位在数据科学家,特别强调学生的“洞察”能力的培养,即从大规模数据中快速洞见有价值的、可以指导实际行动的“洞见”的能力。主要特色如下:
重点培养学生的3C(Creative、Critical和Curious)精神,尤其是好奇心,通过掌握新技术来提升自己的职业竞争力。该专业的学员主要来自于经济学、统计学和计算机科学专业;
强调数据科学的三个要素,突出数据科学的跨学科性,开设课程涉及计算机科学、统计学、机器学习及实战应用。此外,该学校特别强调机器学习在数据科学中的重要地位,重视学生对机器学习和数据可视化的掌握和应用能力;
强调实习的重要性,开设由PLU( Professional Liaison Unit)资助的专业实习项目,将学生派送到NHS、Facebook、亚马逊、BBC的实际工作部门进行为期6个月的实习;
重视产业真实数据及现实问题的处理能力。该学校设有个人大作业,要求学生综合运用所学知识,选择来自产业、学术或政府的真实数据,解决现实世界中存在的具体问题。
中国
1、数据科学专业全国大范围开花
随着“大数据”被纳入国家战略规划,中国也加快布局数据科学教育的步伐。
在2014-2015年期间,多所国内知名高校首先采取设立“大数据研究院”的形式,从学校其他优势专业或相关专业选拔研究员和学生,探索和规划数据科学专业的未来发展。第一所建立研究院的是清华大学,其后西南交通大学,贵州大学,北京大学,中国人民大学等7所大学也相继设立。
除了高校自身对于数据科学这一领域的探索外,各大互联网企业也对数据科学领域人才培养给予了多方面的支持。2015年6,阿里云携手慧科教育集团,启动了“阿里云大学合作项目”(AUCP,.Aliyun university cooperation program),联合高校开设云计算与数据科学专业方向。通过产教融合的方式,阿里云在AUCP中提供云计算、大数据工程师以及生态圈伙伴等资源,培养下一代数据科学家。北京航空航天大学、浙江大学、复旦大学、上海交通大学、西安交通大学、南京大学、武汉大学,华南理工大学共8所高校,成为了阿里云大学合作计划的首批试点高校。据悉,该计划将在未来三年,在全国100所高校完成专业课程开设,预计可培养认证5万名云计算和数据科学人才。
另外,全国各类高校、高职院校已陆续开始围绕大数据专业建设展开研究并申报大数据专业。2016年2月,北京大学、对外经济贸易大学和中南大学成为首批成功获批设立“数据科学与大数据技术”本科新专业的高校;2017年3月,经教育部批准,第二批共32所高校成功申请“数据科学与大数据技术”本科专业;2018年3月,共有283所高校获批“数据科学与大数据”专业。从申请资料看,国内数据科学专业是一门主要以统计学和计算机科学与技术专业为基础建设的全新专业。数据科学专业已成为我国现阶段高等教育的热点问题之一。但是,建设什么样的专业以及如何建设该专业仍为各高校面临的难点问题。
2、国内外数据科学教育的异同
相同点:
国内人才培养模式同样多元化
无论是单独设立数据研究院或者将数据科学专业归属为某专业学科下面,国内数据科学专业人才培养包括但不限于本科、研究生、课程认证等形式。
以清华大学为例,2015年,该校启动国内首个基于混合式教育模式的学位项目——“数据科学与工程”专业硕士项目。该项目旨在培养数据存储、运行监管、智能分析挖掘及战略决策等依赖于大数据资源和平台的专门人才,汇聚了清华大学计算机科学与技术系、软件学院、自动化系、交叉信息研究院等院系的知名教师,还将由研发一线专业人士讲授企业案例课程,并与百度、阿里、腾讯等公司合作建立学生实践基地。详情了解清华数据科学研究院官网:www.ids.tsinghua.edu.cn/
国内高校同样会以优势学科与数据科学相结合办学
以人民大学统计与大数据研究院为例,设有数理统计、卫生与生物统计、计算统计、金融统计、大数据统计、数据挖掘和机器学习、应用统计等研究领域,致力于培养数据科学与统计学深度融合的统计学家。
不同点:
从目前国内部分高校的培养方案可看出,其数据科学专业课程体系主要由计算机科学和统计学两大学科领域的主干课程组成,而对数据科学本身的关注不够,并没有开出数据科学专业的特色课程。需要注意的是,计算机科学和统计学是数据科学的理论基础,而并非是数据科学特有的知识。
从世界一流大学的数据科学课程设置看,数据科学专业并非是计算机科学和统计学的简单拼凑,而更加突出的是数据科学本身——数据科学的基础理论、数据加工、数据分析、数据计算、数据管理及数据产品开发等。
从国内部分高校公布的数据科学专业课程体系看,一般均设有两门基础课程——统计学和机器学习,并直接将计算机科学和统计学专业的两门课程照搬到数据科学这一新专业之中,甚至教学大纲都没有做任何的改动。但是,从上述一流大学的课程设置看,数据科学专业中讲解统计学和机器学习的方式与统计学和计算机科学等传统学科不同。
以机器学习为例,华盛顿大学开设课程名为《数据科学家常用的统计机器学习(Statistical Machine Learning for Data Scientists)》,强调的是从数据科学视角讲解统计学,突出的是数据科学与机器学习之间的关联;
卡内基梅隆大学的课程名为《大数据集的机器学习(Machine Learning with Big Data Sets)》,强调的是面向大数据的机器学习。
纽约大学开设的课程名为《机器学习与计算统计学(Machine Learning and Computational Statistics) 》,强调的是机器学习与统计学的深层融合,而并非是二者的简单拼凑。
目前,国内部分学校的数据科学专业的课程设计中仅强调技术和工程问题,而忽略了人文和管理问题。但是,从国外数据科学专业课程设计看,数据科学不仅是技术和工程的问题,而且还涉及人文、道德和法律的范畴。
例如:加州大学伯克利分校的课程《大数据中的人与价值(Behind the Data: Humans and Values)》;华盛顿大学的课程《以人为中心的数据科学(Human-Centered Data Science)》;哥伦比亚大学的课程《数据科学综合训练及伦理(Data Science Capstone & Ethics》。
结语
数据学科是一门实践性极强的学科,其研究和应用均不能脱离具体领域,又必须涉及到该领域发展战略、基础设施、人力资源、政策、法律与文化环境等诸多因素。因此,数据科学需要解决的终极问题是将大数据放在一个完整的生态系统之中去认识与利用,从生态系统层次统筹和规划,避免片面认识数据问题,进而推动数据、能源和物质之间的相互转化。
从总体上看,数据科学的人才培养目的并不是数据工程师,而是数据科学家,尤其培养具有3C精神的数据科学家。高校如何加快对数据科学学科特征的研究、培养“理论、实践和精神为一体”的综合性人才,并建立培养该专业人才的完整体系,将会成为国家在竞争“地球大数据”方面的软实力。