人工智能与大数据技术导论-13011知识点记录_13011人工智能与大数据技术导论(1)

最新推荐文章于 2024-08-14 16:42:19 发布

2401_84181108

最新推荐文章于 2024-08-14 16:42:19 发布

阅读量714

点赞数 12

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84181108/article/details/138886774

版权

程序员专栏收录该内容

169 篇文章 1 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

AI就是能够让机器做一些只有”人“才能做得好的事情。
1.2、AI历史发展
经历了三个阶段：
（1）1956-1976年，注重逻辑推理；
（2）1976-2006年，以专家系统为主；
（3）2006年-至今，重视数据、自主学习和认知智能时代；
1.3、AI技术的成熟度
主要集中在这几个领域：视觉识别（看）、自然语言理解（听）、机器人（动）、机器学习（自我学习能力）
在技术层面，AI分为感知、认知、执行三个层次。感知技术包括机器视觉、语音识别等各类应用人工智能技术获取外部信息的技术，认知技术包括机器学习技术，执行技术包括人工智能与机器人结合的硬件数据以及智能芯片的计算技术。
1.4、AI与云计算和大数据的关系
大数据和人工智能相辅相成，在人工智能的加持下，海量的大数据对算法模型不断训练，又在结果输出上进行优化，从而使人工智能向更为智能化的方向进步，大数据与人工智能的结合将在更多领域中击败人类所能够做到的极限。
大数据与云计算的关系如下：
（1）数据是资产，云为数据资产提供存储、访问和计算。
（2）当前云计算更偏重海量存储和计算，以及提供的云服务，运行云应用。但是缺乏盘活数据资产的能力，挖掘价值性信息和预测性分析，为国家、企业、个人提供决策方案和服务，是大数据的核心议题，也是云计算的最终方向。

第2章“AI产业”

需要掌握：基础层；技术层；应用层；产业发展趋势分析。
2.1、基础层
基础层包括芯片、传感器、大数据、云计算等领域，为AI提供数据或计算能力支撑。
芯片：包括GPU、FPGA等加速硬件与神经网络芯片，为深度学习提供计算硬件，是重点底层硬件。
云计算：主要为人工智能开发提供云端计算资源和服务，以分布式网络为基础，提高计算效率。
传感器：主要对环境、动作、图像等内容进行智能感知，这也包括指纹、人脸、虹膜、静脉等人体生物特征识别硬件及软件服务，是人工智能的重要数据输入和人机交互硬件，
大数据：来源于各个行业的海量数据为人工智能提供丰富的数据资源；大数据管理和大数据分析软件或工具为人工智能产业提供数据的收集、整合、存储、处理、分析、挖掘等数据服务。
2.2、技术层
在基础层之上，结合软硬件能力所实现的针对不同细分应用开发的技术。主要包括机器学习、计算机视觉、语音及自然语言处理三个方面；
机器学习：主要以深度学习、增强学习等算法研究为主，赋予机器自主学习并提高性能的能力。
计算机视觉：包括静动态图像识别与处理等，对目标进行识别、测量及计算。
语音及自然语言处理：包括语音识别和自然语言处理，研究语言的收集、识别理解、处理等内容，涉及计算机、语言学、逻辑学等学科。
2.3、应用层
应用层更新直接面对用户，具有更多的用户数据。对于人工智能的应用来说，技术平台、产业应用环境、市场、用户等因素都对人工智能产业化应用市场有很大的影响。如何实现人工智能产业自身的创新并应用到具体场景中将会是各行业发展的关键点。
当前主要应用场景：安防、制造业、服务业、金融、教育、传媒、法律、医疗、家居、农业、汽车
2.4、产业发展趋势分析
（1）平台崛起，技术、硬件、内容多方面资源进一步整合。
（2）人工智能技术继续向垂直行业下沉；
（3）产学研相结合，人才仍是抢夺的重点；
（4）厂商进入卡位战，不断发掘新的商业模式；
（5）中国仍需加大在算力、算法、大数据领域的发展，弥补技术弱势；
（6）伦理之争不止，AI终将取代部分人工；

第3章“数据”

需要掌握：大数据的概念；国内大数据现状；大数据计算模式；大数据技术；数据平台。
3.1、大数据的概念
（1）概念：一般意义上，大数据是指利用现有理论、方法、技术和工具难以在可接受的时间内完成分析计算、整体呈现高价值的海量复杂数据集合。
（2）特征：（4v ）
– volume 数据体量大
– variety 数据多样性
– value 价值密度低
– velocity 速度快
3.2、国内大数据现状
（1）政策持续完善；
（2）技术和应用逐步落地；
（3）数据产生价值难；
（4）问题与机遇并存；（打破数据孤岛、加强数据管理、深化领域应用）
3.3、大数据计算模式
计算模式分为批量计算和流式计算；
3.3.1 批量计算（Batch Computing):
概念：先进行数据的存储，然后对存储的静态数据进行集中计算。
使用场景：先存储后计算，实时性要求不高，准确性、全面性更重要；
典型系统：Hadoop
3.3.2 流式计算（Stream Computing):
概念：无法确定数据到来的时刻和顺序，也无法将全部数据都存储起来，当流动的数据到来后，在内存中直接进行数据的实时计算。
使用场景：无需先存储，可以直接进行数据计算，实时性要求严格，数据的精确度稍微宽松。
典型系统：Storm
3.3.3 流式大数据特征：实时、易失、突发、无序、无限
3.4、大数据技术
3.4.1 大数据分析算法：
（1）可视化分析；（2）数据挖掘算法；（3）预测性分析能力；（4）语义引擎；（5）数据质量和数据管理；
3.4.2 大数据技术分为大数据平台技术和大数据应用技术；
大数据平台技术：数据的采集、存储、流转、加工所需要的底层技术。
大数据应用技术：对数据进行加工，把数据转化成商业价值的技术，如算法，以及由算法衍生出来的模型、引擎、接口、产品等。
3.5、数据平台
3.5.1 作用：一个数据平台的出现不仅可以承担数据分析的压力，还可以对业务数据进行整合，从而从不同程度上提供数据处理的性能，基于数据平台实现更丰富的功能需求。
3.5.2 设计原则： p89
（1）数据集中和共享；
（2）数据标准统一；
（3）数据管理策略统一；
（4）减少数据复制；
（5）长期和短期相结合；
3.5.3 数据存储和计算
（1）常规数据仓库
（2）MPP(大规模并行处理）架构
（3）Hadoop分布式系统架构
3.5.4 数据建模：数据模型至少应包含：
（1）数据元（属性）定义；（2）数据类（对象）定义; （3）主数据管理；
3.5.5 数据目录：
（1）数据连接和发现的能力
（2）元数管理能力：
（3）检索筛选和用户自组织能力
（4）安全和共享能力
3.5.6 数据安全管控
（1）应用安全；（2）数据安全；（3）主机安全；（4) 网络安全; （5）物理安全；
3.5.7 数据准备-ETL
（1）数据清洗（Extract)：数据补缺、数据替换、格式规范化、主外键约束；
（2）数据转换（Transform): 数据合并、拆分、行列互换、数据验证
（3）数据加载（Load): 时间戳、日志表、全表对比、全表删除插入方式
3.5.8 数据平台总结
大数据平台实现数据的分层与水平解耦，沉淀公共的数据能力。分为三层：数据模型（技术）、数据服务和数据开发，通过数据建模实现跨域数据的整合和知识沉淀，通过数据服务实现对于数据的封装和开发，快速、灵活地满足上层应用的要求，通过数据开发工具满足个性化数据和应用的需要。

第4章“机器学习”

需要掌握：机器学习基本概念；数据预处理。
4.1、机器学习基本概念
1.1 概念：让机器从大量样本数据中自动学习其规则，并根据学习到的规则预测未知数据的过程。
1.2 本质：输入到输出的映射。类似人脑思考，机器经过大量样本的训练，获得了一定的经验（模型），从而产生了能够推测（推断或推理）新的事物的能力。
1.3 几个重要的术语：
（1）数据集 - dataSet ：样本数据，包含训练集、验证集、测试集
训练集：用于训练模型，确定模型中的参数；
验证集：用于模型的选择和优化；
测试集：用于对已经训练好的模型进行评估，评价其表现；
（2）目标/标签 -target :因变量，关注的结果
（3）特征 feature：自变量，用来解释和预测结果的其他变量；数据类型包括：数值型、分类型、文本、日期
1.4 机器学习的任务流程：
数据导入-》探索性分析-》数据清洗-》特征工程-》算法选择和优化-》模型训练和评估
4.2、数据预处理
包含探索性分析、数据清洗、特征工程
4.2.1 探索性分析
概念：通过图表等可视化工具对原始数据进行大致了解和初步分析的过程。
作用：（1）了解数据集的基本信息；（2）给数据清洗提供方向；（3）为特征工程提供方向；
4.2.2 数据清洗
脏数据的情况：
（1）存在重复记录的数据；
（2）存在不相关记录
（3）无用的特征信息；
（4）文字拼写错误
（5）信息格式不统一
（6）明显错误的离群值
（7）缺失数据
4.2.3 特征工程
从原始数据中找到合适的特征集的过程

第5章“模型”

需要掌握：模型概念；模型的训练；梯度下降法；模型的拟合效果；模型的评估与改进。

5.1、模型概念
模型刻画了因变量y和自变量x之间的客观关系，即y与x之间存在一种形象的客观规律在约束。模型是对处理变量关系的某种假设。
5.2、模型的训练
5.2.1 概念：训练一个模型就是从训练数据中确定所有权重和偏差的最佳值，参数的求解
训练的目标是找到让误差最小的权重和偏差。
5.2.2 均方误差 MSE: 是回归模型中的一个重要概念，描绘了整个考察的样本集中预测值和实际值的平均偏离程度。
5.2.3 误差函数是为了评估模型拟合的好坏，通常用误差函数来度量拟合的程度。误差函数极小化意味着拟合程度最好，对应的模型参数即为最优参数。
5.3、梯度下降法
5.3.1 类似贪心算法，每次梯度下降都选取局部最优解。如果误差函数是凸函数，梯度下降法得到的解一定是全局最优解（梯度为0）。
5.3.2 误差函数的最小值就是误差函数收敛的位置。
5.3.3 步长：在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。
5.3.4 常见梯度下降方法：
（1）批量梯度下降法；（2）随机梯度下降法；（3）小批量随机梯度下降法；
5.4、模型的拟合效果
5.4.1 欠拟合：模型过于简单，对于部分数据刻画较差，训练的时间不够；（实际应用中，出现较少）
5.4.2 过度拟合：参数过多，对训练集的匹配度太高、太准确，以至于在后面的预测过程中可能会导致预测值非常偏离合适的值，预测非常不准确。
5.4.3 过度拟合的处理方法：
（1）使用更多训练数据；
（2）使用正则化，改变误差函数，在误差函数原有的基础上加入惩罚项；
（3）早停法，在迭代过程中提早结束迭代；
（4）使用集成算法
（5）减少特征的数量
5.5、模型的评估和改进
5.5.1 回归模型
评价指标：均方误差-MSE 平均绝对误差-MAE
5.5.2 分类模型
评价指标：准确率、精确率、召回率、ROC曲线、误分率
（1）准确率 = 预测正确的样本数据 / 综样本数
误分率 = 1- 准确率
（2）精确率
预测为正的样本中确实为正值的比率
（3）召回率
所有真实值为正的样本中被我们预测为正值的比率。
5.5.3 模型改进
（1）使用更多人为标注的标签数据；
（2）手动进行误差分析；
（3）进行效果更好的Bias-Variance(偏差-方差）分析

第6章“机器学习算法”

需要掌握：算法概述；支持向量机算法；逻辑回归算法；KNN算法；决策树算法；聚类算法
6.1、算法概述
6.1.1 概念
机器学习算法可以描述为学习一个目标函数f，它能够最好地映射出输入变量x到输出变量y。
6.1.2 算法选择要考虑：
（1）数据的大小、质量和类型；
（2）完成计算所需要的时间
（3）任务的紧迫程度
（4）你需要对数据做什么处理
6.2、支持向量机算法（SVM)
6.2.1 选择一个超平面（一条直线），它能最好地将输入变量空间划分为不同的类（0/1）；超平面和最接近的点的距离看作一个差值，最好地超平面可以把所有数据划分为两个类，并且这个差值最大。
这些点称为支持向量。
6.2.2 对于线性不可分的情况，SVM的解决方案是通过核函数进行空间转换，将低位空间投射到高位空间中去，使经过变换后的样本点实现线性可分。本质上是线性分类器。
6.3、逻辑回归算法
6.3.1 是一种常见的分类模型，标签数据必须是离散型变量；逻辑回归的目的是找出每个输入变量对应的参数值。
6.3.2 合适用于处理二分类问题。、
6.3.3 最近的距离：欧几里得距离；其他距离：曼哈顿距离；切比雪夫距离；
6.4、K最邻近算法（KNN）
6.4.1 一种简单有效的算法，但计算量大，适合用于输入变量和输出预测变量最具有相关性的场景；
6.4.2 对于新数据点的预测：寻找整个训练集中K个最相似的样本（邻居），并对这些样本的输出变量进行总结。
6.5、决策树算法
6.5.1 用二叉树来解释决策树模型，不需要对数据做特殊处理，使用简单；具有极高的可解释性；容易出现过度拟合；
6.5.2 CART决策树模型
6.6、聚类算法
6.6.1 聚类
将数据分类到不同的类或者簇这样的一个过程，同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。非监督式学习；
6.6.2 K均值聚类-K-Means
（1）将n个数据样本划分成k个聚类的算法，使得同一聚类中的样本相似度较高，不同聚类样本的相似度较低。
（2）是一个反复迭代求解的过程，速度快；
6.6.3 均值漂移聚类
一个基于滑动窗口的算法，目标是定位每个组/类的中心点，通过将中心点的候选点更新为滑动窗口内点的均值来完成。
6.6.4 基于密度的聚类方法 DBSCAN
6.6.5 用高斯混合模型的最大期望聚类 GMMs
假设数据点是高斯分布的，用均值和标准差这2个参数来描述簇的形状。
6.6.6 凝聚层次聚类
6.6.7 图团体检测

第7章“深度学习”

需要掌握：深度学习概念；神经网络的训练；神经网络的优化和改进；卷积神经网络。
7.1、深度学习概念
7.1.1 概念：是把大量数据输入一个非常复杂的模型，让模型自己探索有意义的中间表达。
本质：用深度神经网络处理海量数据，属于机器学习的一种模型
优势：让神经网络自己学习如何抓取特征，整合了特征提取的过程，可以自动学习数据集的特征。
7.2、神经网络的训练
7.2.1 神经网络组成：由神经元、网状结构、激活函数构成；

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

)]
[外链图片转存中…(img-t62nvZQm-1715726438216)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

2401_84181108

关注

12
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
人工智能与大数据技术导论-13011知识点记录_13011人工智能与大数据技术导论(1)

6.1.1 概念机器学习算法可以描述为学习一个目标函数f，它能够最好地映射出输入变量x到输出变量y。6.1.2 算法选择要考虑：（1）数据的大小、质量和类型；（2）完成计算所需要的时间（3）任务的紧迫程度（4）你需要对数据做什么处理。
复制链接

扫一扫