前置视频基础阶段 | |
1-大数据学习中的 | 【课程内容】Linux安装使用、Linux文件系统、Linux用户和进程管理、 Shell和网络基础、git工具、 Linux小测验。 【课程目标】掌握Linux使用方式和常见命令;熟悉Linux环境,包括shell和git使用 |
2-大数据学习中的 | 【课程内容】Java简介,包括跨平台、虚拟机、JDK等、 Java编程基础,函数、循环语句、变量等、Java高级特性,类、继承、多态等、Java数据集合,包括List、Map、Set等介绍、自动化项目管理工具Maven、 Java小测验。 【课程目标】掌握Java基本语法,能够使用Java编写包含类、函数、循环等语言的代码;熟悉Java编程环境,包括集成开发工具eclipse/IDEA,项目管理工具等 |
3-Hadoop课程延展 | 【课程内容】分布式文件储存系统HDFS进阶,分布式数据库HBase进阶,分布式计算引擎MapReduce基础与进阶,Zookeeper与YARN 【课程目标】深度学习hadoop系统,包括高级特性,优化等;增加hadoop大数据技术学习广度,拓展眼界 |
4-Spark课程延展 | 【课程内容】分布式计算框架Spark Core和Spark SQL进阶和调优,函数式编程语言scala 【课程目标】深度学习Spark系统,包括高级特性,优化等,增加Spark大数据技术学习广度,拓展眼界 |
入学考试:通过考试后正式进入大数据技术学习阶段 | |
周末面授阶段 | |
第一阶段:Hadoop生态体系本阶段涉及的实战项目:hadoop分布式集群搭建;用户画像系统;日志收集系统;Hive数据仓库构建。 | |
5-大数据概述、分布式数据收集系统:Sqoop与Flume | 【理论部分】大数据概论、 大数据技术体系(按照六层架构介绍:数据收集、数据存储、资源管理、计算引擎、数据分析以及可视化),Hadoop发展历程、Hadoop生态系统概述/结构化数据收集Sqoop:背景、架构、原理以及使用 、非结构化(日志)数据收集系统Flume:背景、架构、原理及使用;
【课程目标】 掌握大数据收集系统架构,能够使用sqoop和flume构建企业级大数据收集系统。 |
6-分布式消息队列:Kafka、分布式存储系统:文件系统HDFS | 【理论部分】概述 、基本架构与工作原理、应用场景以及经典的架构组合等、HDFS简介、优缺点、架构(主节点NameNode、从节点DataNode、journal node的解析) 、核心设计(数据块、数据副本的存放策略、安全模式、负载均衡、机架感应等)、HDFS操作(命令行接口、Java接口)
|
7-分布式存储系统:分布式数据库HBase | 【理论部分】HBase简介、优缺点、架构以及HBase API使用等
【项目案例】用户画像系统、网络爬虫 【课程目标】掌握HBase系统架构,能够编写程序读写 HBase中存储的数据 。 |
8-分布式分析引擎:Hive基础 | 【理论部分】Hive背景、架构、 HQL的DML和DDL语法等
【课程目标】熟练掌握HQL编写方式,能够使用Hive构建大数据仓库系统 |
9-分布式分析引擎:Hive进阶 | 【理论部分】Hive内部原理,多计算引擎(Tez与Spark),Hive创建ORC/Parquet表,Hive调优
【课程目标】掌握Hive内部原理,了解常见Hive的优化方式。 |
10-交互式查询引擎Presto | 【理论部分】Presto基本架构,Presto与Hive对比,Presto基本使用。
【项目测试练习】 Hadoop测试(包括选择题、简单题和编程题三部分) |
第二阶段:Spark生态体系本阶段涉及的实战项目:电影受众分析系统、用户手机APP行为分析系统、用户画像系统(机器学习相关) | |
11-Spark 基础 | 【理论部分】Java Lambda语法简介 、Spark基础原理与运行架构、Spark部署方式
【课程目标】掌握Spark基本原理,能够搭建Spark开发和运行环境。 |
12-Spark 程序设计 | 【理论部分】Spark编程模型、内存弹性分布式数据集的工作原理和机制、Spark RDD transform、持久化、checkpoint、容错与性能优化
【课程目标】掌握常见的Spark API,熟练使用Spark开发大数据分析程序。 |
13-Spark SQL | 【理论部分】流式计算基础、spark streaming基础原理 、基础API介绍(包括map,filter,flatMap、foreachRDD,saveAsTextFile等)和高级API介绍(window, transform和mapWithState),Redis介绍
【课程目标】掌握Spark Streaming工作原理及常见的API,能够使用Spark Streaming编写流式实时计算程序。 |
14-Spark Streaming进阶 | 【理论部分】保存kafka offset并恢复、spark streaming容错机制、spark streaming调优方法、structured streaming原理及关键API
【课程目标】掌握Spark Streaming调优方法和高级编程技巧,能够使用高级API编写更加鲁棒的分布式流式计算程序。 |
15-Spark MLlib数据分析挖掘程序 | 【理论部分】数据挖掘与机器学习基础知识,以及机器学习案例、Spark MLib分类、聚类、推荐等算法,用户画像系统设计。
【课程目标】掌握常见的机器学习算法,能够使用Spark MLLib工具包解决机器学习问题。 |
第三阶段:深度学习课程体系本阶段涉及的实战项目:电影评论文本情感分析、电信客户流失预测、基于深度学习的手写字体识别 | |
【第三阶段】 16-深度学习课程体系 | 【理论部分】人工智能技术体系 ; 人工智能技术的数学与python基础 ; 神经网络(DNN,RNN及CNN等)和开源框架tensorflow及pytorch等
【课程目标】掌握人工智能技术基础,包括数学与python技术,了解神经网络技术及开源框架tensorfow、pytorch等。 |
第四阶段:企业级大数据项目实战本阶段涉及的实战项目:用户行为实时分析系统、信用卡欺诈分析系统、“双十一”大数据日志分析系统、用户画像系统、电子商务推荐系统、商务智能报表系统。 | |
17-spark企业应用: | 【实战部分】项目背景、开发需求、 项目架构、核心点讲解; 项目架构、核心点讲解; 数据展示、共性问题答疑 、项目总结。 讲解主要架构:Kafka+Spark Streaming+Mysql
|
18-spark企业应用: | 【实战部分】项目背景、开发需求、 项目架构、核心点讲解 ; 数据展示、共性问题答疑 、项目总结; 讲解主要架构:HDFS + Spark Core + mllib
|
19-hadoop企业应用: |
|
20-hadoop企业应用: | 【实战部分】项目背景、开发需求、 项目架构、核心点讲解; 项目架构、核心点讲解; 数据展示、共性问题答疑 、项目总结。 用户画像系统常见场景简介。 讲解主要架构:flume+hbase+spark+redis+mllib
|
21-大数据综合应用: | 【实战部分】项目背景、开发需求、 项目架构、核心点讲解; 项目架构、核心点讲解; 数据展示、共性问题答疑 、项目总结。 讲解主要架构:HDFS + HBase + Spark SQL + Spark Streaming
|
22-大数据综合应用: | 【实战部分】项目背景、开发需求、 项目架构、核心点讲解; 项目架构、核心点讲解; 数据展示、共性问题答疑 、项目总结。 讲解主要架构:Hadoop + Hive + Presto + superset/tableau
|
23-大数据面试攻略 | 【课程目标】公司大数据岗位核心技能需求。了解所需知识和技能,以及主流的大数据工具和框架的使用方法。 讲解大数据开发工程师岗位面试的常见笔试题。会涵盖主流的互联网公司的面试题 目,深入浅出,结合实际场景分析。 讲解常大数据研发面试问题,开放式问题和系统设计问题,融汇贯通整个课程知识点。 |
报表:大屏、开发、定制(DBA),大数据门户(开速定制工具、每早发邮件,ReportService)
【前置视频课程】 1-机器学习中的Python | 【课程内容】构建Python环境、基本语法、数据预处理、可视化、完整实例与练习. 【课程目标】Python环境搭建与其基础语法的学习,熟悉列表元组等基础概念与python函数的形式,Python的IO操作,Python中类的使用介绍,python使用实例讲解机器学习领域的经典算法、模型及实现的任务等,同时学习搭建和配置机器学习环境,并学会用线性回归解决一个实际问题。 |
【前置视频课程】 2-人工智能数学基础 | 【课程内容】函数与导数、线性代数与矩阵、概率分析、程序与概念(算法推导与实现)、程序实践、课后实践。 【课程目标】熟悉数学中的符号表示,理解函数求导以及链式求导法则,理解数学中函数的概念,熟悉矩阵相关概念以及数学表示。将数学概念与程序基础联系起来;梯度下降实例讲解; |
【前置视频课程】 3-机器学习概念与入门 | 【课程内容】人工智能概念、获取数据与特征工程、模型训练。 【课程目标】解释人工智能中涉及到的相关概念。了解如何获取数据以及特征工程。熟悉数据预处理方法。理解模型训练过程。熟悉pandas的使用。了解可视化过程;Panda使用讲解;图形绘制; |
入学考试:通过考试后正式进入人工智能学习阶段 | |
【第一阶段】 4-人工智能总览、应用与前沿 | 【课程内容】人工智能技术和应用场景的介绍。常见人工智能的算法,主流的应用构建 方法。主流机器学习框架介绍,针对机器学习场景能够更好的应用相关工具进行分析与处理。 【实战部分】鸢尾花分类实战、分类预测实战、回归预测实战。 【课程目标】 人工智能技术和应用场景的全面了解,形成系统化的人工智能技术栈。主流机器学习框架介绍,针对机器学习场景能够更好的应用相关工具进行分析与处理;通过实例对人工智能分析方法和流程有直观了解,为后续课程打下基础。 |
【第一阶段】 5-机器学习的数学基础-数学分析 | 【课程内容】将复杂的数学理论进行梳理,将机器学习中用到的数学基础由浅入深进行详细的梳理与讲解。主要涉及矩阵、导数、概率相关内容。 【实战部分】手写识别实战、文本降维实战。 【课程目标】 掌握和了解人工智能技术底层数学理论支撑;概率论,矩阵和凸优化的介绍,相应算法设计和原理;凸优化理论,流优化手段 SGD,牛顿法等优化方法。 |
【第一阶段】 6-特征工程和结果可视化 | 【课程内容】主流python数据预处理库、原始数据特征构建。特征选择、构建新特征,缺失值填充等特征工程方法。 【实战部分】Scikit-learn特征工程,网格搜索, 超参数调优,泰坦尼克求生预测 【课程目标】了解和掌握主流python数据预处理库,通过工具能够对原始数据进行特征构建。 |
【第二阶段】 7-深度学习框架TensorFlow | 【课程内容】作为深度学习主流分析框架 Tensorflow,通过掌握 Tensorflow 基本概念,计算模型和原理,能够通过 Tensorflow 进行深度学习和模型构建与训练。学习掌握训练过程优化方法与问题优化。 【实战部分】图片分类实战、贷款欺诈预测 【课程目标】了解及学习变量作用域与变量命名。搭建多层神经网络并完成优化。)正则化优化神经网络。梯度问题与解决方法。 |
【第二阶段】 8-决策树与随机森林 | 【课程内容】决策树算法的原理,度量指标和算法变种。掌握和了解 GBDT,AdaBoost,随机森林等集成学习模型的原理和集成学习算法。 【实战部分】鸢尾花分类实战、金融反欺诈预测 【课程目标】了解和掌握决策树算法的原理,度量指标和算法变种。 掌握和了解随机森林和,GBDT等集成学习模型的原理和集成学习算法。应用XGboost,通过GBDT算法完成预测实例,加深对算法和实战的融合。 |
【第二阶段】 9-分类算法 | 【课程内容】了解和掌握 KNN 、SVM及朴素贝叶斯算法原理,熟悉集成学习(Bagging、Boosing)对于分类算法的优化过程,掌握数据降维方法应用。 【实战部分】手写图形数据降维与分类、文本向量化实战、文本分类实战 【课程目标】 掌握常用分类算法:KNN、SVM、NaiveBayes、Bagging、Boosting。熟悉分类算法调参关键参数。掌握不同分类算法的过拟合、欠拟合情景与调优。掌握集成学习调优。通过实例对于调参过程进行深入理解.了解不同算法的共性与个性。 |
【第二阶段】 10-回归算法 | 【课程内容】主流回归模型,线性回归,逻辑回归 LR 及其变种和扩展算法。 梯度下降,牛顿法, 拟牛顿法 LBFGS 等优化方法,逻辑回归最优化问题的求解。 【实战部分】波士顿房价预测、股票预测回归实战 【课程目标】掌握和学习主流回归模型,线性回归,逻辑回归及其变种和扩展算法。了解和掌握通过梯度下降,牛顿法, 拟牛顿法等最优化方法进行逻辑回归最优化问题的求解。通过实例掌握如何应用逻辑回归等回归算法。 |
自由讨论学习: 1、阶段考试,动态掌握学习情况、进度和效果; 2、小项目实操,机器学习任意算法实操小项目; 3、小组总结讨论。 | |
【第三阶段】 11-聚类算法 | 【课程内容】无监督学习模型,了解主流的聚类算法。 了解不同相似度计算算法。深入了解不同的数据降维方法。掌握文本降维方法(LDA) 【实战部分】新闻分类实战、文本降维实战 【课程目标】掌握Kmeans以及其衍生算法,掌握modelbased聚类方法,掌握无监督降维方法:PCA、ICA、字典学习,掌握监督降维方法LDA,掌握文本降维方法LDA,深入理解聚类算法与分类算法的区别,理解聚类算法的优缺点。 |
【第三阶段】 12-大数据机器学习框架SparkMLlib | 【课程内容】以大数据主流分析框架为例, Spark 内核架构,计算模型和原理,了解分布式机器学习原理,能够处理和解决大规模数据分析预处理和模型训练。 【实战部分】电影推荐案例 【课程目标】大数据机器学习主流分析框架,内核架构,计算模型和原理。了解和掌握Spark框架上的机器学习库MLlib的算法原理,核心数据抽象,以及应用MLlib。通过实战电影推荐演练,同时学习推荐系统算法和原理。 |
【第四阶段】 13-深度学习-基础 | 【课程内容】深度学习主要概念,激活函数,超参数等,BP神经网络基础,卷积,Pooling,Dropout等方法和原理,深度学习应用场景,经典深度学习网络结构等。 【实战部分】MINIST手写识别案例电影评论文本分类案例、评论文本情感分析案例 【课程目标】了解深度学习主要概念,激活函数等,以及BP神经网络基础,学习卷积,Pooling,Dropout等方法和原理,了解和掌握深度学习和经典深度学习网络结构等。 |
【第四阶段】 14-深度学习-高级 | 【课程内容】理解RNN网络的数据流,了解BPTT算法,理解用于RNN网络的文本向量化方法,理解文本ensemble过程,理解Attention机制,构建用于文本分类的神经网络,熟悉RNN基础上的复杂网络结构Seq2seq。 【实战部分】新闻分类实战(与传统分类算法做对比)、文本生成实战 【课程目标】1)利用TensorFlow构建RNN网络,熟悉文本向量化过程,完成RNN网络的训练过程,理解文本生成过程,理解RNN与前馈神经网络的区别与联系。 |
自由讨论学习: 1、阶段考试; 2、小组答辩项目实操; 3、知识点回顾及重难点梳理与解答。 | |
【第五阶段】 企业实用项目 | 15-人工智能互联网应用:自动驾驶项目 【项目实战】光环自主研发课程体系,项目案例暂不对外开发,请填写个人信息获取。 |
16-深度学习企业应用:图像人脸识别项目 【项目实战】光环自主研发课程体系,项目案例暂不对外开发,请填写个人信息获取。 | |
17-深度学习企业应用:聊天机器人(NLP 应用)项目 【项目实战】光环自主研发课程体系,项目案例暂不对外开发,请填写个人信息获取。 | |
18-人工智能企业应用:语音识别项目 【项目实战】光环自主研发课程体系,项目案例暂不对外开发,请填写个人信息获取。 |
区块链:
https://cloud.tencent.com/developer/news/118643
链码:业务代码
LevelDB、CouchDB
数据外置到Docker外部
格式化数据:通用数据库、处理方式是应用和数据库脚本
不仅仅格式构化数据:NOSQL、redis\mongodb
通用搜索:企业搜索,like和性能慢问题
大数据库:分析阶段和处理阶段,主要用于分析阶段,hbase和spark, 时实处理storm, stream
人工智能:非文本数据,即视频数据,声音数据处理,标记,识别。机器视觉、机器听觉(声音识别)、自然语音处理(深加工)、人机对话(更深处理),处理层。深度学习(非程序员定义的规则系统,数据+深度学习来定义,黑盒子)
数据信任:区块链,信任机制,单机问题,多份数据,数据存储。数据存储层。
交互层:AR/VR
处理层:应用、AI
通讯层:4G、5G
存储层:区块链、NOSQL、SQL
=========================
每一个概念搞清楚,不要混在一起,混在一起是假专家,故意让人不好懂的。
MSA:微服务,Restful 通信,与组织重构、Docker、CICD本质无关。
人工智能+区块链,其实没有什么。大数据+区块链当前还没有解决。
与培训单位合作是推广技术的好方式。
学习方式:
通过招聘学习,采
通过培训学习,供
通过专业视频报道学习,业界,新
通过试验来学习,做
通过书籍来学习,系统化
通过交流大会来学习,点,面