本阶段主要从数据分析、概率论和线性代数及矩阵和凸优化这四大块讲解基础,旨在训练大家逻辑能力,分析能力。拥有良好的数学基础,有利于大家在后续课程的学习中更好的理解机器学习和深度学习的相关算法内容。同时对于AI研究尤为重要,例如人工智能中的智能很大一部分依托“概率论”实现的。
一、数据分析 |
1)常数e 2)导数 3)梯度 4)Taylor | 5)gini系数 6)信息熵与组合数 7)梯度下降 8)牛顿法 |
二、概率论 |
1)微积分与逼近论 2)极限、微分、积分基本概念 3)利用逼近的思想理解微分,利用积分的方式理解概率 4)概率论基础 5)古典模型 | 6)常见概率分布 7)大数定理和中心极限定理 8)协方差(矩阵)和相关系数 9)最大似然估计和最大后验估计 |
三、线性代数及矩阵 |
1)线性空间及线性变换 2)矩阵的基本概念 3)状态转移矩阵 4)特征向量 5)矩阵的相关乘法 | 6)矩阵的QR分解 7)对称矩阵、正交矩阵、正定矩阵 8)矩阵的SVD分解 9)矩阵的求导 10)矩阵映射/投影 |
四、凸优化 |
1)凸优化基本概念 2)凸集 3)凸函数 | 4)凸优化问题标准形式 5)凸优化之Lagerange对偶化 6)凸优化之牛顿法、梯度下降法求解 |
阶段二、人工智能提升 - Python高级应用
随着AI时代的到来以及其日益蓬勃的发展,Python作为AI时代的头牌语言地位基本确定,机器学习是着实令人兴奋,但其复杂度及难度较大,通常会涉及组装工作流和管道、设置数据源及内部和云部署之间的分流而有了Python库后,可帮助加快数据管道,且Python库也在不断更新发布中,所以本阶段旨在为大家学习后续的机器学习减负。
一、容器 |
1)列表:list 2)元组:tuple 3)字典: dict 4)数组: Array | 5)切片 6)列表推导式 7)浅拷贝和深拷贝 |
二、函数 |
1)lambda表达式 2)递归函数及尾递归优化 | 3)常用内置函数/高阶函数 4)项目案例:约瑟夫环问题 |
三、常用库 |
1)时间库 2)并发库 3)科学计算库 | 4)Matplotlib可视化绘图库 5)锁和线程 6)多线程编程 |
阶段三、人工智能实用 - 机器学习篇
机器学习利用算法去分析数据、学习数据,随后对现实世界情况作出判断和预测。因此,与预先编写好、只能按照特定逻辑去执行指令的软件不同,机器实际上是在用大量数据和算法去“自我训练”,从而学会如何完成一项任务。
所以本阶段主要从机器学习概述、数据清洗和特征选择、回归算法、决策树、随机森林和提升算法、SVM、聚类算、EM算法、贝叶斯算法、隐马尔科夫模型、LDA主题模型等方面讲解一些机器学习的相关算法以及这些算法的优化过程,这些算法也就是监督算法或者无监督算法。
一、机器学习 |
1)机器学习概述 |
二、监督学习 |
1)逻辑回归 2)softmax分类 3)条件随机场 4)支持向量机svm | 5)决策树 6)随机森林 7)GBDT 8)集成学习 |
三、非监督学习 |
1)高斯混合模型 2)聚类 3)PCA 4)密度估计 | 5)LSI 6)LDA 7)双聚类 |
四、数据处理与模型调优 |
1)特征提取 2)数据预处理 3)数据降维 | 4)模型参数调优 5)模型持久化 6)模型可视化 |
阶段四、人工智能实用 - 数据挖掘篇
本阶段主要通过音乐文件分类和金融反欺诈模型训练等项目,帮助大家对于上阶段的机器学习做更深入的巩固,为后续深度学习及数据挖掘提供项目支撑。
项目一:百度音乐系统文件分类 |
音乐推荐系统就是利用音乐网站上的音乐信息,向用户提供音乐信息或者建议,帮助用户决定应该听什么歌曲。而个人化推荐则是基于音乐信息及用户的兴趣特征、听歌历史行为,向用户推荐用户可能会感兴趣的音乐或者歌手。推荐算法主要分为以下几种:基于内容的推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐等;推荐系统常用于各个互联网行业中,比如音乐、电商、旅游、金融等。 |
项目二:千万级P2P金融系统反欺诈模型训练 |
目前比较火的互联网金融领域,实质是小额信贷,小额信贷风险管理,本质上是事前对风险的主动把控,尽可能预测和防范可能出现的风险。本项目应用GBDT、Randomforest等机器学习算法做信贷反欺诈模型,通过数据挖掘技术,机器学习模型对用户进行模型化综合度量,确定一个合理的风险范围,使风险和盈利达到一个平衡的状态。 |
阶段五、人工智能前沿 - 深度学习篇
深度学习是实现机器学习的技术,同时深度学习也带来了机器学习的许多实际应用,拓展了AI的使用领域,本阶段主要从TensorFlow、BP神经网络、深度学习概述、CNN卷积神经网络、递归神经网、自动编码机,序列到序列网络、生成对抗网络,孪生网络,小样本学习技术等方面讲解深度学习相关算法以,掌握深度学习前沿技术,并根据不同项目选择不同的技术解决方案。针对公司样本不足,采用小样本技术和深度学习技术结合,是项目落地的解决方案。
1)TensorFlow基本应用 2)BP神经网络 3)深度学习概述 4)卷积神经网络(CNN) 5)图像分类(vgg,resnet) 6)目标检测(rcnn,fast-rcnn,faster-rcnn,ssd) 7)递归神经网络(RNN) 8)lstm,bi-lstm,多层LSTM | 9)无监督学习之AutoEncoder自动编码器 10)Seq2Seq 11)Seq2Seq with Attension 12)生成对抗网络 13)irgan 14)finetune及迁移学习 15)孪生网络 16)小样本学习 |
阶段六、人工智能进阶 - 自然语言处理篇
自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它已成为人工智能的核心领域。自然语言处理解决的是“让机器可以理解自然语言”这一到目前为止都还只是人类独有的特权,被誉为人工智能皇冠上的明珠,被广泛应用。本阶段从NLP的字、词和句子全方位多角度的学习NLP,作为NLP的基础核心技术,对NLP为核心的项目,如聊天机器人,合理用药系统,写诗机器人和知识图谱等提供底层技术。通过学习NLP和深度学习技术,掌握NLP具有代表性的前沿技术。
1)词(分词,词性标注)代码实战 2)词(深度学习之词向量,字向量)代码实战 3)词(深度学习之实体识别和关系抽取)代码实战 4)词(关键词提取,无用词过滤)代码实战 | 5)句(句法分析,语义分析)代码实战 6)句(自然语言理解,一阶逻辑)代码实战 7)句(深度学习之文本相似度)代码实战 |
阶段七、人工智能进阶 - 图像处理篇
数字图像处理(Digital Image Processing)是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。广泛的应用于农牧业、林业、环境、军事、工业和医学等方面,是人工智能和深度学习的重要研究方向。深度学习作为当前机器学习领域最热门的技术之一,已经在图像处理领域获得了应用,并且展现出巨大的前景。本阶段学习了数字图像的基本数据结构和处理技术,到前沿的深度学习处理方法。掌握前沿的ResNet,SSD,Faster RCNN等深度学习模型,对图像分类,目标检测和模式识别等图像处理主要领域达到先进水平。实际工作中很多项目都可以转化为本课程的所学的知识去解决,如行人检测,人脸识别和数字识别。
一、图像基础 |
图像读,写,保存,画图(线,圆,多边形,添加文字) |
二、图像操作及算数运算 |
图像像素读取,算数运算,ROI区域提取 |
三、图像颜色空间运算 |
图像颜色空间相互转化 |
四、图像几何变换 |
平移,旋转,仿射变换,透视变换等 |
五、图像形态学 |
腐蚀,膨胀,开/闭运算等 |
六、图像轮廓 |
长宽,面积,周长,外接圆,方向,平均颜色,层次轮廓等 |
七、图像统计学 |
图像直方图 |
八、图像滤波 |
高斯滤波,均值滤波,双边滤波,拉普拉斯滤波等 |
阶段八、人工智能终极实战 - 项目应用
本阶段重点以项目为导向,通过公安系统人脸识别、图像识别以及图像检索、今日头条CTR广告点击量预估、序列分析系统、聊天机器人等多个项目的讲解,结合实际来进行AI的综合运用。
项目一:公安系统人脸识别、图像识别 |
使用深度学习框架从零开始完成人脸检测的核心技术图像类别识别的操作,从数据预处理开始一步步构建网络模型并展开分析与评估,方便大家快速动手进行项目实践!识别上千种人靓,返回层次化结构的每个人的标签。 |
项目二:公安系统图像检索 |
本项目基于卷积神经网在训练过程中学习出对应的『二值检索向量』,对全部图先做了一个分桶操作,每次检索的时候只取本桶和临近桶的图片作比对,而不是在全域做比对,使用这样的方式提高检索速度,使用Tensorflow框架建立基于ImageNet的卷积神经网络,并完成模型训练以及验证。 |
项目三:今日头条CTR广告点击量预估 |
点击率预估是广告技术的核心算法之一,它是很多广告算法工程师喜爱的战场。广告的价值就在于宣传效果,点击率是其中最直接的考核方式之一,点击率越大,证明广告的潜在客户越多,价值就越大,因此才会出现了刷点击率的工具和技术。通过对于点击量的评估,完成对于潜在用户的价值挖掘。 |
项目四:序列分析系统 |
时间序列分析(Time Series Analysis)是一种动态数据处理的统计方法,主要基于随机过程理论和数理统计方法,研究随机数据序列所遵从的统计规律以便用于解决实际问题。主要包括自相关分析等一般的统计分析方法,构建模型从而进行业务推断。经典的统计分析是假定数据序列具有独立性,而时间序列分析则侧重于研究数据样本序列之间的依赖关系。时间序列预测一般反应了三种实际变化规律:趋势变化、周期性变化和随机性变化。时间序列预测常应用于国民经济宏观控制、企业经营管理、市场潜力量预测、天气预报、水文预报等方面,是应用于金融行业的一种核心算法之一。 |
项目五:京东聊天机器人/智能客服 |
聊天机器人/智能客服是一个用来模拟人类对话或者聊天的一个系统,利用深度学习和机器学习等NLP相关算法构建出问题和答案之间的匹配模型,然后可以将其应用到客服等需要在线服务的行业领域中,聊天机器人可以降低公司客服成本,还能够提高客户的体验友好性。 在一个完整的聊天机器人实现过程中,主要包含了一些核心技术,包括但不限于:爬虫技术、机器学习算法、深度学习算法、NLP领域相关算法。通过实现一个聊天机器人可以帮助我们队AI整体知识的一个掌握。 |
项目六:机器人写诗歌 |
机器人写诗歌/小说是一种基于NLP自然语言相关技术的一种应用,在实现过程中可以基于机器学习相关算法或者深度学习相关算法来进行小说/诗歌构建过程。人工智能的一个终极目标就是让机器人能够像人类一样理解文字,并运用文字进行创作,而这个目标大致上主要分为两个部分,也就是自然语言理解和自然语言生成,其中现阶段的主要自然语言生成的运用,自然语言生成主要有两种不同的方式,分别为基于规则和基于统计,基于规则是指首先了解词性及语法等规则,再依据这样的规则写出文章;而基于统计的本质是根据先前的字句和统计的结果,进而判断下一个子的生成,例如马尔科夫模型就是一种常用的基于统计的方法。 |
项目七:机器翻译系统 |
机器翻译又称自动翻译,是指利用计算机将一种自然语言转换为另外一种自然语言的过程,机器翻译是人工智能的终极目标之一,具有很高的研究价值,同时机器翻译也具有比较重要的实用价值,机器翻译技术在促进政治、经济、文化交流等方面起到了越来越重要的作用;机器翻译主要分为以下三个过程:原文分析、原文译文转换和译文生成;机器翻译的方式有很多种,但是随着深度学习研究取得比较大的进展,基于人工网络的机器翻译也逐渐兴起,特别是基于长短时记忆(LSTM)的循环神经网络(RDD)的应用,为机器翻译添了一把火。 |
项目八:垃圾邮件过滤系统 |
邮件主要可以分为有效邮件和垃圾邮件两大类,有效邮件指的邮件接收者有意义的邮件,而垃圾邮件转指那些没有任何意义的邮件,其内容主要包含赚钱信息、成人广告、商业或者个人网站广告、电子杂志等,其中垃圾邮件又可以发为良性垃圾邮件和恶性垃圾邮件,良性垃圾邮件指的就是对收件人影响不大的信息邮件,而恶性垃圾邮件指具有破坏性的电子邮件,比如包含病毒、木马等恶意程序的邮件。垃圾邮件过滤主要使用使用机器学习、深度学习等相关算法,比如贝叶斯算法、CNN等,识别出所接收到的邮件中那些是垃圾邮件。 |
项目九:手工数字识别 |
人认知世界的开始就是从认识数字开始的,深度学习也一样,数字识别是深度学习的一个很好的切入口,是一个非常经典的原型问题,通过对手写数字识别功能的实现,可以帮助我们后续对神经网络的理解和应用。选取手写数字识别的主要原因是手写数字具有一定的挑战性,要求对编程能力及神经网络思维能力有一定的要求,但同时手写数字问题的复杂度不高,不需要大量的运算,而且手写数字也可以作为其它技术的一个基础,所以以手写数字识别为基础,贯穿始终,从而理解深度学习相关的应用知识。 |
项目十:癌症筛选检测 |
技术可以改变癌症患者的命运吗,对于患有乳腺癌患者来说,复发还是痊愈影响这患者的生命,那么怎么来预测患者的患病结果呢,机器学习算法可以帮助我们解决这一难题,本项目应用机器学习logistic回归模型,来预测乳腺癌患者复发还是正常,有效的预测出医学难题。 |
项目十一:葡萄酒质量检测系统 |
随着信息科技的快速发展,计算机中的经典算法在葡萄酒产业中得到了广泛的研究与应用。其中机器学习算法的特点是运用了人工智能技术,在大量的样本集训练和学习后可以自动地找出运算所需要的参数和模型。 |
项目十二:淘宝网购物篮分析推荐算法 |
购物篮分析(Market Basket Analysis)即非常有名的啤酒尿布故事的一个反应,是通过对购物篮中的商品信息进行分析研究,得出顾客的购买行为,主要目的是找出什么样的物品会经常出现在一起,也就是那些商品之间是有很大的关联性的。通过购物篮分析挖掘出来的信息可以用于指导交叉销售、追加销售、商品促销、顾客忠诚度管理、库存管理和折扣计划等业务;购物篮分析的最常用应用场景是电商行业,但除此之外,该算法还被应用于信用卡商城、电信与金融服务业、保险业以及医疗行业等。 |
项目十三:手工实现梯度下降回归算法 |
梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。 |
项目十四:基于TensorFlow实现回归算法 |
回归算法是业界比较常用的一种机器学习算法,通过应用于各种不同的业务场景,是一种成熟而稳定的算法种类;TensorFlow是一种常用于深度学习相关领域的算法工具;随着深度学习热度的高涨,TensorFlow的使用也会越来越多,从而使用TensorFlow来实现一个不存在的算法,会加深对TensorFlow的理解和使用;基于TensorFlow的回归算法的实现有助于后续的TensorFlow框架的理解和应用,并可以促进深度学习相关知识的掌握。 |
项目十五:合理用药系统 |
合理用药系统,是根据临床合理用药专业工作的基本特点和要求,运用NLP和深度学习技术对药品说明书,临床路径等医学知识进行标准化,结构化处理。如自动提取药品说明书文本里面的关键信息如:药品相互作用,禁忌,用法用量,适用人群等,实现医嘱自动审查,及时发现不合理用药问题,帮助医生、药师等临床专业人员在用药过程中及时有效地掌握和利用医药知识,预防药物不良事件的发生、促进临床合理用药工作。 |
项目十六:行人检测 |
行人检测是利用图像处理技术和深度学习技术对图像或者视频序列中是否存在行人并给予精确定位。学习完行人检测技术后,对类似的工业缺陷检测,外观检测和医疗影像检测等目标检测范畴类的项目可以一通百通。该技术可与行人跟踪,行人重识别等技术结合,应用于人工智能系统、车辆辅助驾驶系统、智能机器人、智能视频监控、人体行为分析、智能交通等领域。由于行人兼具刚性和柔性物体的特性 ,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人检测成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。 |
阶段九、人工智能实战 - 企业项目实战
课程一、基于Python数据分析与机器学习案例实战教程
课程风格通俗易懂,基于真实数据集案例实战。主体课程分成三个大模块(1)python数据分析,(2)机器学习经典算法原理详解,(3)十大经典案例实战。通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。算法课程注重于原理推导与流程解释,结合实例通俗讲解复杂的机器学习算法,并以实战为主,所有课时都结合代码演示。算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家快速入门机器学习。旨在帮助同学们快速上手如何使用python库来完整机器学习案例。选择经典案例基于真实数据集,从数据预处理开始到建立机器学习模型以及效果评估,完整的讲解如何使用python及其常用库进行数据的分析和模型的建立。对于每一个面对的挑战,分析解决问题思路以及如何构造合适的模型并且给出合适评估方法。在每一个案例中,同学们可以快速掌握如何使用pandas进行数据的预处理和分析,使用matplotlib进行可视化的展示以及基于scikit-learn库的机器学习模型的建立。
1)Python数据分析与机器学习实战课程简介 2)Python快速入门 3)Python科学计算库Numpy 4)Python数据分析处理库Pandas 5)Python可视化库Matplotlib 6)回归算法 7)模型评估 8)K近邻算法 9)决策树与随机森林算法 10)支持向量机 11)贝叶斯算法 12)神经网络 13)Adaboost算法 | 14)SVD与推荐 15)聚类算法 16)案例实战:使用Python库分析处理Kobe Bryan职业生涯数据 17)案例实战:信用卡欺诈行为检测 18)案例实战:泰坦尼克号获救预测 19)案例实战:鸢尾花数据集分析 20)案例实战:级联结构的机器学习模型 21)案例实战:员工离职预测 22)案例实战:使用神经网络进行手写字体识别 23)案例实战:主成分分析 24)案例实战:基于NLP的股价预测 25)案例实战:借贷公司数据分析 |
课程二、人工智能与深度学习实战
课程风格通俗易懂,必备原理,形象解读,项目实战缺一不可!主体课程分成四个大模块(1)神经网络必备基础知识点,(2)深度学习模型,(3)深度学习框架Caffe与Tensorflow,(4)深度学习项目实战。 课程首先概述讲解深度学习应用与挑战,由计算机视觉中图像分类任务开始讲解深度学习的常规套路。对于复杂的神经网络,将其展开成多个小模块进行逐一攻破,再挑战整体神经网络架构。对于深度学习模型形象解读卷积神经网络原理,详解其中涉及的每一个参数,对卷积网络架构展开分析与评估,对于现阶段火爆的对抗生成网络以及强化学习给出形象解读,并配合项目实战实际演示效果。 基于框架实战,选择两款深度学习最火框架,Caffe与Tensorflow,首先讲解其基本使用方法,并结合案例演示如何应用框架构造神经网络模型并完成案例任务。 选择经典深度学习项目实战,使用深度学习框架从零开始完成人脸检测,验证码识别,人脸关键点定位,垃圾邮件分类,图像风格转换,AI自己玩游戏等。对于每一个项目实战,从数据预处理开始一步步构建网络模型并展开分析与评估。 课程提供所涉及的所有数据,代码以及PPT,方便大家快速动手进行项目实践!
1)深度学习概述与挑战 2)图像分类基本原理门 3)深度学习必备基础知识点 4)神经网络反向传播原理 5)神经网络整体架构 6)神经网络案例实战图像分类任务 7)卷积神经网络基本原理 8)卷积参数详解 9)卷积神经网络案例实战 10)经典网络架构分析 11)分类与回归任务 12)三代物体检测算法分析 13)数据增强策略 14)TransferLearning 15)网络架构设计 16) 深度学习框架Caffe网络结构配置 17)Caffe 18)深度学习项目实战人脸检测 | 19)人脸正负样本数据源制作 20)人脸检测网络架构配置习模型 21)人脸检测代码实战 22)人脸关键点定位项目实战 23)人脸关键点定位网络模型 24)人脸关键点定位构建级联网络 25)人脸关键点定位测试效果与分析 26)Tensorflow框架实战 27)Tensorflow构建回归模型 28)Tensorflow构建神经网络模型 29)Tensorflow深度学习模型 30)Tensorflow打造RNN网络模型 31)Tensorflow项目实战验证识别 32)项目实战图像风格转换 33)QLearning算法原理 34)DQN网络架构 35)项目实战DQN网络让AI自己玩游戏 36)项目实战对抗生成网络等 |
项目一、AI大数据互联网电影智能推荐(第一季)
随着科技的发展,现在视频的来源和类型多样性,互联网视频内容充斥着整个网络,如果仅仅是通过翻页的方法来寻找自己想看的视频必然会感到疲劳,现在急需一种能智能推荐的工具,推荐系统通过分析用户对视频的评分分析,对用户的兴趣进行建模,从而预测用户的兴趣并给用户进行推荐。
Python是一种面向对象的解释型计算机程序设计语言,Python具有丰富和强大的库。它常被昵称为胶水语言,而大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,企业面临海量数据的到来,大多选择把数据从本地迁移至云端,云端将成为最大的非结构化数据存储场所。本项目主要以客户咨询为载体,分析客户的群体,分布,旨在挖掘客户的内在需求,帮助企业实现更有价值的营销。
一、教务管理系统业务介绍 |
1)教务管理系统框架讲解 | 2)系统业务逻辑介绍 |
二、大数据需求分析 |
1)明确数据需求 2)大数据分析过程 | 3)分析难点和解决方案 4)大数据相关技术选型 |
三、构建分布式大数据框架 |
1)Hadoop分布式集群配置 2)ZooKeeper高可用 3)SQOOP数据转移 | 4)ETL数据清洗 5)HIVE数据分析 6)HBase数据存储 |
四、基于教务管理系统大数据分析 |
1)业务数据分析指标设定 2)操作MapReduce分而治之 | 3)使用Hive进行数据整合抽离 4)使用HBase存储非结构话数据 |
五、大数据可视化 |
1)可视化技术选型 2)Echarts代码展示炫酷视图 | 3)使用Tableau进行数据可视化展示 |
项目二、电商大数据情感分析与AI推断实战项目(第一季)
本项目从开发的角度以大数据、PHP技术栈为基础,使用真实商用表结构和脱敏数据,分三步构建商用系统、真实大数据环境、进行推断分析以及呈现结果。 项目课程的完整性、商业性,可以使学者尽可能完整地体会真实的商业需求和业务逻辑。完整的项目过程,使PHP技术栈的同学得以窥见和学到一个完整商业平台项目的搭建方法;真实大数据环境的搭建,使呈现、建立大数据的工具应用技术概念储备;基于大数据平台的分析需求的实现、呈现,将完整的一次大数据技术栈到分析结果的中线,平铺直述,为想要学习大数据并有开发基础的同学点亮新的能力。
一、实践项目研发 |
1)开发环境的安装配置 2)表与数据 3)LARAVEL的快速开发实践 | 4)批量创建模型 5)万能控制器与表配置 6)统一视图的创建 |
二、数据分析需求设立 |
1)定义数据需求 2)分析计算过程 | 3)分析难点和解决方案 4)大数据技术选型 |
三、大数据平台搭建 |
1)分布式环境的模拟建立 2)网络环境的调通 3)身份验证与集群控制 | 4)Hadoop环境搭建和要点说明 5)MapReduce与Yarn的搭建和说明 |
四、大数据分析脚本编写 |
1)MapReduce脚本编写 2)拆解数据需求 3)Map逻辑详写 | 4)Reduce逻辑详写 5)结果整理与输出 |
五、结果可视化 |
1)可视化需求和技术选型 2)展示页面的快速铺设 | 3)可视化JS上手 4)使用可视化JS展示结果 |
项目三、AI法律咨询大数据分析与服务智能推荐实战项目(第一季)
本项目结合目前流行的大数据框架,在原有成熟业务的前提下,进行大数据分析处理,真实还原企业应用,让学员身临其境的感受企业大数据开发的整个流程。
项目的业务系统底层主要采用JAVA架构,大数据分析主要采用Hadoop框架,其中包括Kettle实现ETL、SQOOP、Hive、Kibana、HBASE、Spark以及人工智能算法等框架技术;采用真实大数据集群环境的搭建,让学员切身感受企业项目的从0到1的过程。
一、系统业务介绍 |
1)底层业务实现框架讲解 | 2)功能模块讲解 |
二、系统架构设计 |
1)总体架构分析 2)数据流向 | 3)各技术选型承载作用 4)部署方案 |
三、详尽实现 |
1)原始数据处理 2)ETL数据导入 | 3)MR数据计算 4)Hive数据分析 |
四、数据可视化 |
1)采用Highcharts插件展示客户偏好曲线图 | 2)使用Tableau进行数据分析可视化展示 |
五、项目优化 |
1)ZooKeeper实现HA | 2)集群监控的整体联调 |
项目四、AI大数据基站定位智能推荐商圈分析项目实战(第一季)
随着当今个人手机终端的普及、出行人群中手机拥有率和使用率已达到相当高的比例,根据手机信号在真实地理空间的覆盖情况,将手机用户时间序列的手机定位数据,映射至现实地理位置空间位置,即可完整、客观地还原出手机用户的现实活动轨迹,从而挖掘出人口空间分布与活动联系特征信息。
商圈是现代市场中企业市场活动的空间,同时也是商品和服务享用者的区域。商圈划分为目的之一是研究潜在顾客分布,以制定适宜的商业对策。
本项目以实战为基础结合大数据技术Hadoop、.Net技术全栈为基础,采用真实商业数据,分不同环节构建商用系统、真实大数据环境、进行推断分析及呈现数据。
一、分析系统业务逻辑讲解 |
1)大数据基站定位智能推荐商圈分析系统介绍 | 2)数据前期清洗和数据分析目标指标的设定等 |
二、大数据导入与存储 |
1)关系型数据库基础知识 2)hive的基本语法 3)hive的架构及设计原理 4)hive安装部署与案例等 | 5)Sqoop安装及使用 6)Sqoop与关系型数据库进行交互等 7)动手实践 |
三、Hbase理论及实战 |
1)Hbase简介、安装及配置 2)Hbase的数据存储与数据模型 3)Hbase Shell | 4)Hbase 访问接口 5)Hbase数据备份与恢复方法等 6)动手实践(数据转储与备份) |
四、基站数据分析与统计推断 |
1)背景与分析推断目标 2)分析方法与过程推断 | 3)动手实践(分析既定指标数据) |
五、数据分析与统计推断结果的展示(大数据可视化) |
1)使用Tableau展示数据分析结果 | 2)使用HighCharts、ECharts展示数据分析结果 |
阶段十、阿里云认证
课程一、云计算 - 网站建设:部署与发布 |
阿里云网站建设认证课程教你如何掌握将一个本地已经设计好的静态网站发布到Internet公共互联网,绑定域名,完成工信部的ICP备案。 |
课程二、云计算 - 网站建设:简单动态网站搭建 |
阿里云简单动态网站搭建课程教你掌握如何快速搭建一个WordPress动态网站,并会对网站进行个性化定制,以满足不同的场景需求。 |
课程三、云计算 - 云服务器管理维护 |
阿里云服务器运维管理课程教你掌握快速开通一台云服务器,并通过管理控制台方便地进行服务器的管理、服务器配置的变更和升级、数据的备份,并保证其可以正常运转并按业务需求随时进行配置的变更。 |
课程四、云计算 - 云数据库管理与数据迁移 |
阿里云云数据库管理与数据迁移认证课程掌握云数据库的概念,如何在云端创建数据库、将自建数据库迁移至云数据库MySQL版、数据导入导出,以及云数据库运维的常用操作。 |
课程五、云计算 - 云存储:对象存储管理与安全 |
阿里云云储存认证课程教你掌握安全、高可靠的云存储的使用,以及在云端存储下载文件,处理图片,以及如何保护数据的安全。 |
课程六、云计算 - 超大流量网站的负载均衡 |
掌握如何为网站实现负载均衡,以轻松应对超大流量和高负载。 |
课程七、大数据 - MOOC网站日志分析 |
本课程可以帮助学员掌握如何收集用户访问日志,如何对访问日志进行分析,如何利用大数据计算服务对数据进行处理,如何以图表化的形式展示分析后的数据。 |
课程八、大数据 - 搭建企业级数据分析平台 |
模拟电商场景,搭建企业级的数据分析平台,用来分析商品数据、销售数据以及用户行为等。 |
课程九、大数据 - 基于LBS的热点店铺搜索 |
本课程可以帮助学员掌握如何在分布式计算框架下开发一个类似于手机地图查找周边热点(POI)的功能,掌握GeoHash编码原理,以及在地理位置中的应用,并能将其应用在其他基于LBS的定位场景中。 课程中完整的演示了整个开发步骤,学员在学完此课程之后,掌握其原理,可以在各种分布式计算框架下完成此功能的开发,比如MapReduce、Spark。 |
课程十、大数据 - 基于机器学习PAI实现精细化营销 |
本课程通过一个简单案例了解、掌握企业营销中常见的、也是必需的精准营销数据处理过程,了解机器学习PAI的具体应用,指导学员掌握大数据时代营销的利器---通过机器学习实现营销。 |
课程十一、大数据 - 基于机器学习的客户流失预警分析 |
本课程讲解了客户流失的分析方法、流程,同时详细介绍了机器学习中常用的分类算法、集成学习模型等通用技能,并使用阿里云机器学习PAI实现流失预警分析。可以帮助企业快速、准确识别流失客户,辅助制定策略进行客户关怀,达到挽留客户的目的。 |
课程十二、大数据 - 使用DataV制作实时销售数据可视化大屏 |
帮助非专业工程师通过图形化的界面轻松搭建专业水准的实时可视化数据大屏,以满足业务展示、业务监控、风险预警等多种业务的展示需求。 |
课程十三、大数据 - 使用MaxCompute进行数据质量核查 |
通过本案例,学员可了解影响数据质量的因素,出现数据质量问题的类型,掌握通过MaxCompute(DateIDE)设计数据质量监控的方法,最终独立解决常见的数据质量监控需求。 |
课程十四、大数据 - 使用Quick BI制作图形化报表 |
阿里云Quick BI制作图形化报表认证课程教你掌握将电商运营过程中的数据进行图表化展现,掌握通过Quick BI将数据制作成各种图形化报表的方法,同时还将掌握搭建企业级报表门户的方法。 |
课程十五、大数据 - 使用时间序列分解模型预测商品销量 |
使用时间序列分解模型预测商品销量教你掌握商品销量预测方法、时间序列分解以及熟悉相关产品的操作演示和项目介绍。 |
课程十六、云安全 - 云平台使用安全 |
阿里云云平台使用安全认证课程教你了解由传统IT到云计算架构的变迁过程、当前信息安全的现状和形势,以及在云计算时代不同系统架构中应该从哪些方面利用云平台的优势使用安全风险快速降低90%。 |
课程十七、云安全 - 云上服务器安全 |
阿里云云上服务器安全认证课程教你了解在互联网上提供计算功能的服务器主要面临哪些安全风险,并针对这些风险提供了切实可行的、免费的防护方案。 |
课程十八、云安全 - 云上网络安全 |
了解网络安全的原理和解决办法,以及应对DDoS攻击的方法和防护措施,确保云上网络的安全。 |
课程十九、云安全 - 云上数据安全 |
了解云上数据的安全隐患,掌握数据备份、数据加密、数据传输安全的解决方法。 |
课程二十、云安全 - 云上应用安全 |
了解常见的应用安全风险,SQL注入原理及防护,网站防篡改的解决方案等,确保云上应用的安全。 |
课程二十一、云安全 - 云上安全管理 |
了解云上的安全监控方法,学会使用监控大屏来监控安全风险,并能够自定义报警规则,确保随时掌握云上应用的安全情况。 |