大数据实训整体解决方案

最新推荐文章于 2024-07-12 11:00:18 发布

筱程技术

最新推荐文章于 2024-07-12 11:00:18 发布

阅读量2.3k

点赞数 1

分类专栏：教学实训大数据文章标签：大数据 hadoop spark 编程语言数据挖掘

本文链接：https://blog.csdn.net/weixin_41903778/article/details/104938543

版权

第一章大数据发展背景
1.1 国家政策
 2017年1月
工业和信息化部正式发布了《大数据产业发展规划（2016－2020年）》，明确了“十三五”时期大数据产业的发展思路、原则和目标，将引导大数据产业持续健康发展，有力支撑制造强国和网络强国建设。
 2018年9月
工信部公示“2018年大数据产业发展试点示范项目名单”，公布了包括大数据存储管理、大数据分析挖掘、大数据安全保障、产业创新大数据应用、跨行业大数据融合应用、民生服务大数据应用、大数据测试评估、大数据重点标准研制及应用、政务数据共享开放平台及公共数据共享开放平台等10个方向200个项目。
 2019年11月
为进一步落实《国务院关于印发促进大数据发展行动纲要的通知》和《大数据产业发展规划（2016~2020年）》，推进实施国家大数据战略，务实推动大数据技术、产业创新发展，我国工业和信息化部将组织开展2020年大数据产业发展试点示范项目申报工作。
1.2 行业现状
据相关资料显示，随着互联网、移动互联网、物联网等信息通信技术及产业的不断发展，全球数据量呈爆发式增长态势。至此，IDC研究报告指出，根据ZDNET的统计预计到2020年，中国产生的数据总量将超过8.5ZB，是2013年的10倍。
此外，值得一提的是，大数据市场空间巨大的同时，其产业规模也有望迎来快速增长。据前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》统计数据显示，2015年我国大数据产业规模已达2800亿元，截止至2017年我国大数据产业规模增长至4700亿元，规模增速进一步提高至30.6%，初步测算2018年我国大数据产业规模将达6200亿元左右，同比增长31.9%。并预测在2020年我国大数据产业规模增长突破万亿元，达到了10100亿元，同比增长26.3%。

2015-2020年我国大数据产业规模统计及增长情况预测
数据来源：前瞻产业研究院整理
由此可知，随着来自政策、技术以及市场等各方面的力量推进之下，大数据产业的发展潜力绝不能小觑。对此，业内人士还预期称，我国大数据产业正在从起步阶段步入黄金期，2020年中国有望成世界第一数据资源大国。
1.3 专业背景
大数据及相关专业是以计算机为基础，以挖掘、分析为主，以搭建、工具使用为辅，紧密面向行业应用的一门综合性学科。其方向有数据科学与大数据技术、概率论与数理统计、数据挖掘与数据分析、数据运维与开发、算法与数据结构、计算机网络、并行计算等多个专业方向。目前全国各类院校已陆续开始围绕大数据专业建设展开研究并申报大数据专业。
2016年，教育部批准北京大学、对外经贸大学、中南大学率先开设“数据科学与大数据技术”专业；2017年，教育部批准包括中国人民大学、北京邮电大学、复旦大学在内的共计32所高校获批“数据科学与大数据技术专业”；2018年3月，教育部发布《2017年度普通高等学校本科专业备案和审批结果》，共计255所高校获批开设“数据科学与大数据技术专业”及“大数据管理与应用专业”；2019年3月，教育部发布《2018年度普通高等学校本科专业备案和审批结果》，共计228所高校获批开设“数据科学与大数据技术专业” 及“大数据管理与应用专业”。
“大数据技术与应用”专业是2016年教育部公布的新增专业。2017年共有62所职业院校获批“大数据技术与应用”专业，2018年共有148所职业院校获批“大数据技术与应用”专业，2019年度新增195所高职院校获批“大数据技术与应用”专业。截止目前，总计405所高职院校成功申请该专业。

第二章教学平台
红亚大数据教学平台基于高校的教学场景，运用云计算技术，集课程实验、算法实战、数据科研、考试于一体的实训平台，平台课程共计800多个任务。学生可通过浏览器访问使用，可在学校任何一个网络可达的场所进行学习。
系统课程学习模式包括实验平台、项目路径和职业路径，满足不同场景的教学需求。在教学管理方面，平台自带人工智能课程推荐功能，可为学生提供个性化课程推荐及AI课程助手，助力学生定向就业。还可以通过大数据分析，自动生成学业报告，为学生就业提供桥梁，并作为教师教学的得力助手，为高校的学生能力培养及教师的工作提供强有力的支持。
2.1 学习模式
2.1.1 实验平台
该模式以知识体系为核心，将大数据内容按照不同类型的知识模块进行分类。如大数据基础体系下包含了：Linux基础、编程基础、数学基础、数据库基础等课程；大数据进阶体系包含了：Hadoop、Spark数据处理、R语言、Python数据处理、SAS数据分析等课程；该模式围绕一个内容展开了多方面知识的学习，与现在教育方式一致，保留了师生们传统的学习授课方法。不仅如此，为满足学校的已有的课程教学资源，老师可以自定义实验内容及实验镜像，将文本类、实操类、视频类课件上传到教学平台上满足教学需求。
2.1.2 职业路径
该模式以职业岗位需求为核心，综合分析国内众多企业的大数据相关人才岗位需求，如大数据运维工程师、大数据研发工程师、大数据架构工程师，经过采集、筛选、对比、定模等一系列的流程，将岗位技能需求落实到具体的知识点，围绕一个岗位展开多方面相关技术的学习。
教师在后台可以将实验按照所需知识点的难易程度设计成一套流程体系。学生按照流程开始实验，将每一模块的技能牢牢掌握后，到最后具备胜任该职业的能力，可为自身职业发展提供有效帮助。
2.1.3 项目路径
项目路径学习模式是以还原企业的真实项目完成过程为设计思路，将大数据技能知识点与实际项目案例相结合，让学生能够真实的体会到每个知识点在实际项目中的具体作用。
将一个项目拆分成多个实验，多个实验间共同使用同一实验环境，以实现项目的连贯性和真实性。项目提供整套的实验环境及配套工具，用户在切换实验时对应的实验环境不会改变，在下一个实验会继续使用上一实验的实验环境，并最终完成该项目。具体项目案例包括大数据集群运维项目、图书馆管理系统的设计与实现、IBM离职率分析等。
2.2 练习算法
2.2.1 算法集
算法集提供了一个环境，用户可以在里面写代码、运行代码、查看结果，并在其中可视化数据，并与平台中的数据集功能进行交互式使用，可直接调用平台当中的数据集用于算法在实际数据中的实践测试。鉴于这些优点，它能帮助他们便捷地执行各种端到端任务，如数据清洗、统计建模、构建/训练机器学习模型等。
算法集的一个特色是允许把代码写入独立的cell中，然后单独执行。这样做意味着用户可以在测试项目时单独测试特定代码块，无需从头开始执行代码。虽然其他的IDE环境（如RStudio）也提供了这种功能，但就个人使用情况来看，算法集的单元结构是设计的最好的。
算法集的优势还体现在灵活性和交互性上，除了最基础的Python，它还允许用户在上面运行R语言。由于它比IDE平台更具交互性，教师也更乐于在各种教程中用它来展示代码。
2.2.2 数据集
数据集功能提供数量众多的大数据数据集，包括互联网、零售、电商、医疗等相关数据集，数据集中的数据可直接与算法集中的算法进行交互使用，为算法提供所需数据的调用支撑。
教师可根据数据集的内容、格式、数量等为学生设定开放式课题，使用真实的数据集进行大数据项目案例处理分析，深度理解掌握大数据技术是如何处理这些数据的，例如，教师给定一份数据让学生进行预测实验，学生需设计算法进行清洗与预测等。
平台提供开放式上传功能，支持用户将自己的数据上传至平台当中，并可设定是否与他人共用，可帮助用户解决数据存放管理问题，实现用户数据的开放式共享。

2.3 在线考试
2.3.1 理论考核
理论考核采用在线考核模式，将单选题、多选题、判断题、填空题、简答题添加在试卷上，每一道题的题目、正选、分值等内容可由管理员自行设置，简答题题采用关键词进行自动判分，同时也可以由教师手动判分。
2.3.2 实践测评
实践测评考核模式是以实验操作过程为考核点，也称之为实操题考核模式，由教师在管理端设置考核步骤、分值权重，平台提供配套的实验考试环境。学生在实际操作过程中遇到的考核点，需要根据实际结果去填写，到最后统一汇总分数。该模式突破了传统的考核模式，通过实操的方式来加深印象，巩固大数据知识。
2.