bigdata/AI/blockchain

最新推荐文章于 2020-11-21 14:10:45 发布

cxzhq2002

最新推荐文章于 2020-11-21 14:10:45 发布

阅读量459

点赞数

前置视频基础阶段
1-大数据学习中的 Linux基础	【课程内容】Linux安装使用、Linux文件系统、Linux用户和进程管理、 Shell和网络基础、git工具、 Linux小测验。【课程目标】掌握Linux使用方式和常见命令；熟悉Linux环境，包括shell和git使用
2-大数据学习中的 java基础	【课程内容】Java简介，包括跨平台、虚拟机、JDK等、 Java编程基础，函数、循环语句、变量等、Java高级特性，类、继承、多态等、Java数据集合，包括List、Map、Set等介绍、自动化项目管理工具Maven、 Java小测验。【课程目标】掌握Java基本语法，能够使用Java编写包含类、函数、循环等语言的代码；熟悉Java编程环境，包括集成开发工具eclipse/IDEA，项目管理工具等
3-Hadoop课程延展	【课程内容】分布式文件储存系统HDFS进阶，分布式数据库HBase进阶，分布式计算引擎MapReduce基础与进阶，Zookeeper与YARN 【课程目标】深度学习hadoop系统，包括高级特性，优化等；增加hadoop大数据技术学习广度，拓展眼界
4-Spark课程延展	【课程内容】分布式计算框架Spark Core和Spark SQL进阶和调优，函数式编程语言scala 【课程目标】深度学习Spark系统，包括高级特性，优化等，增加Spark大数据技术学习广度，拓展眼界
入学考试：通过考试后正式进入大数据技术学习阶段

周末面授阶段
第一阶段：Hadoop生态体系本阶段涉及的实战项目：hadoop分布式集群搭建；用户画像系统；日志收集系统；Hive数据仓库构建。
5-大数据概述、分布式数据收集系统：Sqoop与Flume	【理论部分】大数据概论、大数据技术体系（按照六层架构介绍：数据收集、数据存储、资源管理、计算引擎、数据分析以及可视化），Hadoop发展历程、Hadoop生态系统概述/结构化数据收集Sqoop：背景、架构、原理以及使用、非结构化（日志）数据收集系统Flume：背景、架构、原理及使用；【实战部分】利用Flume从指定目录中收集数据到HDFS、利用Sqoop将MySQL表中数据写HDFS。【课程目标】掌握大数据收集系统架构，能够使用sqoop和flume构建企业级大数据收集系统。
6-分布式消息队列：Kafka、分布式存储系统：文件系统HDFS	【理论部分】概述、基本架构与工作原理、应用场景以及经典的架构组合等、HDFS简介、优缺点、架构（主节点NameNode、从节点DataNode、journal node的解析）、核心设计（数据块、数据副本的存放策略、安全模式、负载均衡、机架感应等）、HDFS操作（命令行接口、Java接口）【实战部分】搭建Kafka集群、如何编写Producer将数据写入Kafka、如何编写Consumer从Kafka中读取数据、搭建HDFS集群、使用NameNode Web UI、使用HDFS Shell利用Java编写程序从HDFS中读数据、利用Java编写程序将数据写入HDFS中、利用Java删除HDFS上的文件和目录
7-分布式存储系统：分布式数据库HBase	【理论部分】HBase简介、优缺点、架构以及HBase API使用等【实战部分】搭建Hbase集群、使用Hbase Web UI、使用HBase Shell、利用Java编写程序在hbase中创建表、利用Java编写程序向hbase表中写入和读取数据【项目案例】用户画像系统、网络爬虫【课程目标】掌握HBase系统架构，能够编写程序读写 HBase中存储的数据。
8-分布式分析引擎：Hive基础	【理论部分】Hive背景、架构、 HQL的DML和DDL语法等【实战部分】Hive环境搭建、利用Hive创建表，并进行查询、Hive创建ORC与Parquet表并查询【课程目标】熟练掌握HQL编写方式，能够使用Hive构建大数据仓库系统
9-分布式分析引擎：Hive进阶	【理论部分】Hive内部原理，多计算引擎（Tez与Spark），Hive创建ORC/Parquet表，Hive调优【实战部分】程序方式访问Hive、Hive调优演示【课程目标】掌握Hive内部原理，了解常见Hive的优化方式。
10-交互式查询引擎Presto	【理论部分】Presto基本架构，Presto与Hive对比，Presto基本使用。【实战部分】Presto集群搭建、Presto使用方式、Presto与Hive性能对比【项目测试练习】 Hadoop测试（包括选择题、简单题和编程题三部分）
第二阶段：Spark生态体系本阶段涉及的实战项目：电影受众分析系统、用户手机APP行为分析系统、用户画像系统（机器学习相关）
11-Spark 基础	【理论部分】Java Lambda语法简介、Spark基础原理与运行架构、Spark部署方式【实战部分】Spark开发环境搭建、使用Spark Web UI、如何将Spark程序运行到YARN上【课程目标】掌握Spark基本原理，能够搭建Spark开发和运行环境。
12-Spark 程序设计	【理论部分】Spark编程模型、内存弹性分布式数据集的工作原理和机制、Spark RDD transform、持久化、checkpoint、容错与性能优化【实战部分】如何利用intellij idea开发一个spark程序并运行到集群中、如何利用spark设计电影受众分析程序【课程目标】掌握常见的Spark API，熟练使用Spark开发大数据分析程序。
13-Spark SQL	【理论部分】流式计算基础、spark streaming基础原理、基础API介绍（包括map，filter，flatMap、foreachRDD，saveAsTextFile等）和高级API介绍（window， transform和mapWithState），Redis介绍【实战部分】利用Spark Streaming读取HDFS中的数据，经统计（按照window统计）后写入HDFS：利用Spark Streaming读取HDFS中的数据，经统计后写入Redis和HBase：利用mapWithState实现wordcount 【课程目标】掌握Spark Streaming工作原理及常见的API，能够使用Spark Streaming编写流式实时计算程序。
14-Spark Streaming进阶	【理论部分】保存kafka offset并恢复、spark streaming容错机制、spark streaming调优方法、structured streaming原理及关键API 【实战部分】利用Spark Streaming+kafka+redis实现“用户手机app行为分析系统”、实现streuctured streaming版本的wordcount 【课程目标】掌握Spark Streaming调优方法和高级编程技巧，能够使用高级API编写更加鲁棒的分布式流式计算程序。
15-Spark MLlib数据分析挖掘程序	【理论部分】数据挖掘与机器学习基础知识，以及机器学习案例、Spark MLib分类、聚类、推荐等算法，用户画像系统设计。【实战部分】回归预测和局部加权线性回归预测算法、最近邻KNN预测分析的算法、协同过滤算法的Spark实现技术应用、决策树分类分析挖掘算法、逻辑回归分类分析挖掘算法、贝叶斯分类分析挖掘算法等，互联网用户性别预测。【课程目标】掌握常见的机器学习算法，能够使用Spark MLLib工具包解决机器学习问题。
第三阶段：深度学习课程体系本阶段涉及的实战项目：电影评论文本情感分析、电信客户流失预测、基于深度学习的手写字体识别
【第三阶段】 16-深度学习课程体系	【理论部分】人工智能技术体系 ; 人工智能技术的数学与python基础 ; 神经网络（DNN,RNN及CNN等）和开源框架tensorflow及pytorch等【实战部分】电影评论文本情感分析（监督学习，可应用在：各种评论文本的正负情感分类，新闻的正负情感分类）; 电信客户流失预测（监督学习，可应用在：股价预测、流量预测，房价预测等方面中）; 基于深度学习的手写字体识别【课程目标】掌握人工智能技术基础，包括数学与python技术，了解神经网络技术及开源框架tensorfow、pytorch等。
第四阶段：企业级大数据项目实战本阶段涉及的实战项目：用户行为实时分析系统、信用卡欺诈分析系统、“双十一”大数据日志分析系统、用户画像系统、电子商务推荐系统、商务智能报表系统。
17-spark企业应用: 用户行为实时分析系统	【实战部分】项目背景、开发需求、项目架构、核心点讲解；项目架构、核心点讲解；数据展示、共性问题答疑、项目总结。讲解主要架构：Kafka+Spark Streaming+Mysql 【课程目标】掌握大数据流式系统基本架构 ; 学会使用kafka和spark streaming构建流式计算系统 ; 熟练掌握使用spark streaming编写鲁棒的流式处理程序
18-spark企业应用：信用卡欺诈分析系统	【实战部分】项目背景、开发需求、项目架构、核心点讲解 ; 数据展示、共性问题答疑、项目总结; 讲解主要架构：HDFS + Spark Core + mllib 【课程目标】熟悉机器学习应用 ; 熟悉如何使用HDFS和Spark解决实际问题
19-hadoop企业应用： “双十一”大数据日志分析系统	【实战部分】项目背景、开发需求、项目架构、核心点讲解；项目架构、核心点讲解；数据展示、共性问题答疑、项目总结。讲解主要架构：hadoop+kafka+spark+presto/hive+echart/D3 【课程目标】了解日志分析系统的基本架构 ; 熟练掌握如何采用hadoop和spark解决大数据分析问题 ; 使用常见的开源可视化工具对分析结果可视化
20-hadoop企业应用：用户画像系统	【实战部分】项目背景、开发需求、项目架构、核心点讲解；项目架构、核心点讲解；数据展示、共性问题答疑、项目总结。用户画像系统常见场景简介。讲解主要架构：flume+hbase+spark+redis+mllib 【课程目标】掌握用户画像系统基本架构；熟练使用HBase存储海量结构化和半结构化数据；熟练使用mllib求解机器学习问题
21-大数据综合应用：电子商务推荐系统	【实战部分】项目背景、开发需求、项目架构、核心点讲解；项目架构、核心点讲解；数据展示、共性问题答疑、项目总结。讲解主要架构：HDFS + HBase + Spark SQL + Spark Streaming 【课程目标】掌握大数据设计架构lambda architecture；学会使用Hadoop和Spark技术解决复杂大数据问题
22-大数据综合应用：基于大数据的商务智能报表系统	【实战部分】项目背景、开发需求、项目架构、核心点讲解；项目架构、核心点讲解；数据展示、共性问题答疑、项目总结。讲解主要架构：Hadoop + Hive + Presto + superset/tableau 【课程目标】掌握大数据报表系统基本架构设计方法；学会使用Hadoop和Spark技术解决复杂大数据报表分析及可视化问题。
23-大数据面试攻略	【课程目标】公司大数据岗位核心技能需求。了解所需知识和技能，以及主流的大数据工具和框架的使用方法。讲解大数据开发工程师岗位面试的常见笔试题。会涵盖主流的互联网公司的面试题目，深入浅出，结合实际场景分析。讲解常大数据研发面试问题，开放式问题和系统设计问题，融汇贯通整个课程知识点。

报表：大屏、开发、定制（DBA），大数据门户（开速定制工具、每早发邮件，ReportService）

【前置视频课程】

1-机器学习中的Python

【课程内容】构建Python环境、基本语法、数据预处理、可视化、完整实例与练习.

【课程目标】Python环境搭建与其基础语法的学习，熟悉列表元组等基础概念与python函数的形式，Python的IO操作，Python中类的使用介绍，python使用实例讲解机器学习领域的经典算法、模型及实现的任务等，同时学习搭建和配置机器学习环境，并学会用线性回归解决一个实际问题。

【前置视频课程】

2-人工智能数学基础

【课程内容】函数与导数、线性代数与矩阵、概率分析、程序与概念（算法推导与实现）、程序实践、课后实践。

【课程目标】熟悉数学中的符号表示，理解函数求导以及链式求导法则，理解数学中函数的概念，熟悉矩阵相关概念以及数学表示。将数学概念与程序基础联系起来；梯度下降实例讲解；

【前置视频课程】

3-机器学习概念与入门

【课程内容】人工智能概念、获取数据与特征工程、模型训练。

【课程目标】解释人工智能中涉及到的相关概念。了解如何获取数据以及特征工程。熟悉数据预处理方法。理解模型训练过程。熟悉pandas的使用。了解可视化过程；Panda使用讲解；图形绘制；

入学考试：通过考试后正式进入人工智能学习阶段

【第一阶段】

4-人工智能总览、应用与前沿

【课程内容】人工智能技术和应用场景的介绍。常见人工智能的算法，主流的应用构建方法。主流机器学习框架介绍，针对机器学习场景能够更好的应用相关工具进行分析与处理。

【实战部分】鸢尾花分类实战、分类预测实战、回归预测实战。

【课程目标】人工智能技术和应用场景的全面了解，形成系统化的人工智能技术栈。主流机器学习框架介绍,针对机器学习场景能够更好的应用相关工具进行分析与处理；通过实例对人工智能分析方法和流程有直观了解，为后续课程打下基础。

【第一阶段】

5-机器学习的数学基础-数学分析

【课程内容】将复杂的数学理论进行梳理，将机器学习中用到的数学基础由浅入深进行详细的梳理与讲解。主要涉及矩阵、导数、概率相关内容。

【实战部分】手写识别实战、文本降维实战。

【课程目标】掌握和了解人工智能技术底层数学理论支撑；概率论，矩阵和凸优化的介绍，相应算法设计和原理；凸优化理论，流优化手段 SGD，牛顿法等优化方法。

【第一阶段】

6-特征工程和结果可视化

【课程内容】主流python数据预处理库、原始数据特征构建。特征选择、构建新特征，缺失值填充等特征工程方法。

【实战部分】Scikit-learn特征工程，网格搜索，超参数调优，泰坦尼克求生预测

【课程目标】了解和掌握主流python数据预处理库，通过工具能够对原始数据进行特征构建。

【第二阶段】

7-深度学习框架TensorFlow

【课程内容】作为深度学习主流分析框架 Tensorflow，通过掌握 Tensorflow 基本概念，计算模型和原理，能够通过 Tensorflow 进行深度学习和模型构建与训练。学习掌握训练过程优化方法与问题优化。

【实战部分】图片分类实战、贷款欺诈预测

【课程目标】了解及学习变量作用域与变量命名。搭建多层神经网络并完成优化。）正则化优化神经网络。梯度问题与解决方法。

【第二阶段】

8-决策树与随机森林

【课程内容】决策树算法的原理，度量指标和算法变种。掌握和了解 GBDT，AdaBoost，随机森林等集成学习模型的原理和集成学习算法。

【实战部分】鸢尾花分类实战、金融反欺诈预测

【课程目标】了解和掌握决策树算法的原理，度量指标和算法变种。掌握和了解随机森林和，GBDT等集成学习模型的原理和集成学习算法。应用XGboost，通过GBDT算法完成预测实例，加深对算法和实战的融合。

【第二阶段】

9-分类算法

【课程内容】了解和掌握 KNN 、SVM及朴素贝叶斯算法原理，熟悉集成学习(Bagging、Boosing)对于分类算法的优化过程，掌握数据降维方法应用。

【实战部分】手写图形数据降维与分类、文本向量化实战、文本分类实战

【课程目标】掌握常用分类算法：KNN、SVM、NaiveBayes、Bagging、Boosting。熟悉分类算法调参关键参数。掌握不同分类算法的过拟合、欠拟合情景与调优。掌握集成学习调优。通过实例对于调参过程进行深入理解.了解不同算法的共性与个性。

【第二阶段】

10-回归算法

【课程内容】主流回归模型，线性回归，逻辑回归 LR 及其变种和扩展算法。梯度下降，牛顿法, 拟牛顿法 LBFGS 等优化方法，逻辑回归最优化问题的求解。

【实战部分】波士顿房价预测、股票预测回归实战

【课程目标】掌握和学习主流回归模型，线性回归，逻辑回归及其变种和扩展算法。了解和掌握通过梯度下降，牛顿法, 拟牛顿法等最优化方法进行逻辑回归最优化问题的求解。通过实例掌握如何应用逻辑回归等回归算法。

自由讨论学习： 1、阶段考试，动态掌握学习情况、进度和效果； 2、小项目实操，机器学习任意算法实操小项目； 3、小组总结讨论。

【第三阶段】

11-聚类算法

【课程内容】无监督学习模型，了解主流的聚类算法。了解不同相似度计算算法。深入了解不同的数据降维方法。掌握文本降维方法(LDA)

【实战部分】新闻分类实战、文本降维实战

【课程目标】掌握Kmeans以及其衍生算法，掌握modelbased聚类方法，掌握无监督降维方法：PCA、ICA、字典学习，掌握监督降维方法LDA，掌握文本降维方法LDA，深入理解聚类算法与分类算法的区别，理解聚类算法的优缺点。

【第三阶段】

12-大数据机器学习框架SparkMLlib

【课程内容】以大数据主流分析框架为例， Spark 内核架构，计算模型和原理，了解分布式机器学习原理，能够处理和解决大规模数据分析预处理和模型训练。

【实战部分】电影推荐案例

【课程目标】大数据机器学习主流分析框架，内核架构，计算模型和原理。了解和掌握Spark框架上的机器学习库MLlib的算法原理，核心数据抽象，以及应用MLlib。通过实战电影推荐演练，同时学习推荐系统算法和原理。

【第四阶段】

13-深度学习-基础

【课程内容】深度学习主要概念，激活函数，超参数等，BP神经网络基础，卷积，Pooling，Dropout等方法和原理，深度学习应用场景，经典深度学习网络结构等。

【实战部分】MINIST手写识别案例电影评论文本分类案例、评论文本情感分析案例

【课程目标】了解深度学习主要概念，激活函数等，以及BP神经网络基础，学习卷积，Pooling，Dropout等方法和原理，了解和掌握深度学习和经典深度学习网络结构等。

【第四阶段】

14-深度学习-高级

【课程内容】理解RNN网络的数据流，了解BPTT算法，理解用于RNN网络的文本向量化方法，理解文本ensemble过程，理解Attention机制，构建用于文本分类的神经网络，熟悉RNN基础上的复杂网络结构Seq2seq。

【实战部分】新闻分类实战(与传统分类算法做对比)、文本生成实战

【课程目标】1）利用TensorFlow构建RNN网络，熟悉文本向量化过程，完成RNN网络的训练过程，理解文本生成过程，理解RNN与前馈神经网络的区别与联系。

自由讨论学习： 1、阶段考试； 2、小组答辩项目实操； 3、知识点回顾及重难点梳理与解答。

【第五阶段】
企业实用项目

15-人工智能互联网应用：自动驾驶项目

【项目实战】光环自主研发课程体系，项目案例暂不对外开发，请填写个人信息获取。

16-深度学习企业应用：图像人脸识别项目

【项目实战】光环自主研发课程体系，项目案例暂不对外开发，请填写个人信息获取。

17-深度学习企业应用：聊天机器人（NLP 应用）项目

【项目实战】光环自主研发课程体系，项目案例暂不对外开发，请填写个人信息获取。

18-人工智能企业应用：语音识别项目

【项目实战】光环自主研发课程体系，项目案例暂不对外开发，请填写个人信息获取。

区块链：

https://cloud.tencent.com/developer/news/118643

链码：业务代码

LevelDB、CouchDB

数据外置到Docker外部

格式化数据：通用数据库、处理方式是应用和数据库脚本

不仅仅格式构化数据：NOSQL、redis\mongodb

通用搜索：企业搜索，like和性能慢问题

大数据库：分析阶段和处理阶段，主要用于分析阶段，hbase和spark, 时实处理storm, stream

人工智能：非文本数据，即视频数据，声音数据处理，标记，识别。机器视觉、机器听觉（声音识别）、自然语音处理（深加工）、人机对话（更深处理），处理层。深度学习（非程序员定义的规则系统，数据+深度学习来定义，黑盒子）

数据信任：区块链，信任机制，单机问题，多份数据，数据存储。数据存储层。

交互层：AR／VR

处理层：应用、AI

通讯层：4G、5G

存储层：区块链、NOSQL、SQL

=========================

每一个概念搞清楚，不要混在一起，混在一起是假专家，故意让人不好懂的。

MSA：微服务，Restful 通信，与组织重构、Docker、CICD本质无关。

人工智能+区块链，其实没有什么。大数据+区块链当前还没有解决。

与培训单位合作是推广技术的好方式。

学习方式：
通过招聘学习，采
通过培训学习，供
通过专业视频报道学习，业界，新
通过试验来学习，做
通过书籍来学习，系统化
通过交流大会来学习，点，面

cxzhq2002

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫