人工智能与大数据技术导论-13011知识点记录_13011人工智能与大数据技术导论(2)

2401_84181108

于 2024-05-15 06:41:36 发布

阅读量1k

点赞数 8

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84181108/article/details/138886786

版权

程序员专栏收录该内容

168 篇文章 2 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

（1）应用安全；（2）数据安全；（3）主机安全；（4) 网络安全; （5）物理安全；
3.5.7 数据准备-ETL
（1）数据清洗（Extract)：数据补缺、数据替换、格式规范化、主外键约束；
（2）数据转换（Transform): 数据合并、拆分、行列互换、数据验证
（3）数据加载（Load): 时间戳、日志表、全表对比、全表删除插入方式
3.5.8 数据平台总结
大数据平台实现数据的分层与水平解耦，沉淀公共的数据能力。分为三层：数据模型（技术）、数据服务和数据开发，通过数据建模实现跨域数据的整合和知识沉淀，通过数据服务实现对于数据的封装和开发，快速、灵活地满足上层应用的要求，通过数据开发工具满足个性化数据和应用的需要。

第4章“机器学习”

需要掌握：机器学习基本概念；数据预处理。
4.1、机器学习基本概念
1.1 概念：让机器从大量样本数据中自动学习其规则，并根据学习到的规则预测未知数据的过程。
1.2 本质：输入到输出的映射。类似人脑思考，机器经过大量样本的训练，获得了一定的经验（模型），从而产生了能够推测（推断或推理）新的事物的能力。
1.3 几个重要的术语：
（1）数据集 - dataSet ：样本数据，包含训练集、验证集、测试集
训练集：用于训练模型，确定模型中的参数；
验证集：用于模型的选择和优化；
测试集：用于对已经训练好的模型进行评估，评价其表现；
（2）目标/标签 -target :因变量，关注的结果
（3）特征 feature：自变量，用来解释和预测结果的其他变量；数据类型包括：数值型、分类型、文本、日期
1.4 机器学习的任务流程：
数据导入-》探索性分析-》数据清洗-》特征工程-》算法选择和优化-》模型训练和评估
4.2、数据预处理
包含探索性分析、数据清洗、特征工程
4.2.1 探索性分析
概念：通过图表等可视化工具对原始数据进行大致了解和初步分析的过程。
作用：（1）了解数据集的基本信息；（2）给数据清洗提供方向；（3）为特征工程提供方向；
4.2.2 数据清洗
脏数据的情况：
（1）存在重复记录的数据；
（2）存在不相关记录
（3）无用的特征信息；
（4）文字拼写错误
（5）信息格式不统一
（6）明显错误的离群值
（7）缺失数据
4.2.3 特征工程
从原始数据中找到合适的特征集的过程

第5章“模型”

需要掌握：模型概念；模型的训练；梯度下降法；模型的拟合效果；模型的评估与改进。

5.1、模型概念
模型刻画了因变量y和自变量x之间的客观关系，即y与x之间存在一种形象的客观规律在约束。模型是对处理变量关系的某种假设。
5.2、模型的训练
5.2.1 概念：训练一个模型就是从训练数据中确定所有权重和偏差的最佳值，参数的求解
训练的目标是找到让误差最小的权重和偏差。
5.2.2 均方误差 MSE: 是回归模型中的一个重要概念，描绘了整个考察的样本集中预测值和实际值的平均偏离程度。
5.2.3 误差函数是为了评估模型拟合的好坏，通常用误差函数来度量拟合的程度。误差函数极小化意味着拟合程度最好，对应的模型参数即为最优参数。
5.3、梯度下降法
5.3.1 类似贪心算法，每次梯度下降都选取局部最优解。如果误差函数是凸函数，梯度下降法得到的解一定是全局最优解（梯度为0）。
5.3.2 误差函数的最小值就是误差函数收敛的位置。
5.3.3 步长：在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。
5.3.4 常见梯度下降方法：
（1）批量梯度下降法；（2）随机梯度下降法；（3）小批量随机梯度下降法；
5.4、模型的拟合效果
5.4.1 欠拟合：模型过于简单，对于部分数据刻画较差，训练的时间不够；（实际应用中，出现较少）
5.4.2 过度拟合：参数过多，对训练集的匹配度太高、太准确，以至于在后面的预测过程中可能会导致预测值非常偏离合适的值，预测非常不准确。
5.4.3 过度拟合的处理方法：
（1）使用更多训练数据；
（2）使用正则化，改变误差函数，在误差函数原有的基础上加入惩罚项；
（3）早停法，在迭代过程中提早结束迭代；
（4）使用集成算法
（5）减少特征的数量
5.5、模型的评估和改进
5.5.1 回归模型
评价指标：均方误差-MSE 平均绝对误差-MAE
5.5.2 分类模型
评价指标：准确率、精确率、召回率、ROC曲线、误分率
（1）准确率 = 预测正确的样本数据 / 综样本数
误分率 = 1- 准确率
（2）精确率
预测为正的样本中确实为正值的比率
（3）召回率
所有真实值为正的样本中被我们预测为正值的比率。
5.5.3 模型改进
（1）使用更多人为标注的标签数据；
（2）手动进行误差分析；
（3）进行效果更好的Bias-Variance(偏差-方差）分析

第6章“机器学习算法”

需要掌握：算法概述；支持向量机算法；逻辑回归算法；KNN算法；决策树算法；聚类算法
6.1、算法概述
6.1.1 概念
机器学习算法可以描述为学习一个目标函数f，它能够最好地映射出输入变量x到输出变量y。
6.1.2 算法选择要考虑：
（1）数据的大小、质量和类型；
（2）完成计算所需要的时间
（3）任务的紧迫程度
（4）你需要对数据做什么处理
6.2、支持向量机算法（SVM)
6.2.1 选择一个超平面（一条直线），它能最好地将输入变量空间划分为不同的类（0/1）；超平面和最接近的点的距离看作一个差值，最好地超平面可以把所有数据划分为两个类，并且这个差值最大。
这些点称为支持向量。
6.2.2 对于线性不可分的情况，SVM的解决方案是通过核函数进行空间转换，将低位空间投射到高位空间中去，使经过变换后的样本点实现线性可分。本质上是线性分类器。
6.3、逻辑回归算法
6.3.1 是一种常见的分类模型，标签数据必须是离散型变量；逻辑回归的目的是找出每个输入变量对应的参数值。
6.3.2 合适用于处理二分类问题。、
6.3.3 最近的距离：欧几里得距离；其他距离：曼哈顿距离；切比雪夫距离；
6.4、K最邻近算法（KNN）
6.4.1 一种简单有效的算法，但计算量大，适合用于输入变量和输出预测变量最具有相关性的场景；
6.4.2 对于新数据点的预测：寻找整个训练集中K个最相似的样本（邻居），并对这些样本的输出变量进行总结。
6.5、决策树算法
6.5.1 用二叉树来解释决策树模型，不需要对数据做特殊处理，使用简单；具有极高的可解释性；容易出现过度拟合；
6.5.2 CART决策树模型
6.6、聚类算法
6.6.1 聚类
将数据分类到不同的类或者簇这样的一个过程，同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。非监督式学习；
6.6.2 K均值聚类-K-Means
（1）将n个数据样本划分成k个聚类的算法，使得同一聚类中的样本相似度较高，不同聚类样本的相似度较低。
（2）是一个反复迭代求解的过程，速度快；
6.6.3 均值漂移聚类
一个基于滑动窗口的算法，目标是定位每个组/类的中心点，通过将中心点的候选点更新为滑动窗口内点的均值来完成。
6.6.4 基于密度的聚类方法 DBSCAN
6.6.5 用高斯混合模型的最大期望聚类 GMMs
假设数据点是高斯分布的，用均值和标准差这2个参数来描述簇的形状。
6.6.6 凝聚层次聚类
6.6.7 图团体检测

第7章“深度学习”

需要掌握：深度学习概念；神经网络的训练；神经网络的优化和改进；卷积神经网络。
7.1、深度学习概念
7.1.1 概念：是把大量数据输入一个非常复杂的模型，让模型自己探索有意义的中间表达。
本质：用深度神经网络处理海量数据，属于机器学习的一种模型
优势：让神经网络自己学习如何抓取特征，整合了特征提取的过程，可以自动学习数据集的特征。
7.2、神经网络的训练
7.2.1 神经网络组成：由神经元、网状结构、激活函数构成；
7.2.2 神经网络计算过程：（1）对输入变量施加线性组合；（2）套用激活函数；（3）重复前2步；
7.2.3 深度神经网络：使用了多个隐藏层的神经网络，模型的准确率提高；
7.2.4 代价函数：衡量模型预测值和真实值之间的偏离程度。
7.2.5 正向传播：正常输入计算到数据的过程；
反向传播：为了优化代价函数，修正神经网络中参数的过程。目的是修正参数。
7.3、神经网络的优化和改进
7.3.1 优化的目的
让算法更快收敛，使得速度加快。
7.3.2 常见优化策略
（1）Mini-Batch （2）输入数据标准化；（3）动量方法（Momentum)
7.3.3 正则化方法
目的是防止模型过度拟合。
常见方式： L1/L2正则化； Dropout（随机失活）
7.4、卷积神经网络
7.4.1 卷积运算
将一个矩阵和另一个“矩阵乘子” 通过特定规则计算出一个新的矩阵的过程。
目的：提取输入的不同特征，第一层卷积层可能只能提取到一些低级的特征，如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。
7.4.2 卷积层
对上一层的输入数据进行卷积运算，将得到的结果传递给下一层。

第10章“神经网络”

需要掌握：神经网络概念；训练神经网络；多类别神经网络；嵌入。
10.1、神经网络概念
10.1.1 概念：是一种模仿人脑神经元工作方式的计算和学习系统。它通过将多个神经元按照一定的规则连接起来，形成一个网络，以实现对信息的处理和传递。神经网络通常包括输入层、隐藏层和输出层，其中同一层的神经元之间没有连接，而不同层的神经元之间通过权重相连。神经网络的训练过程包括前向计算和反向传播，通过梯度下降算法来调整网络的权重，以获得最佳的预测或分类结果。
10.1.2 标准组件：
（1）一组节点：类似于神经元，位于层中。
（2）一组权重：表示每个神经网络层于其下方的层之间的关系。下方的层可能是另一个神经网络层，也可能是其他类型的层。
（3）一组偏差，每个节点一个偏差。
（4）一个激活函数，对层中每个节点的输出进行转换。不同的层可能拥有不同的激活函数。
10.2、训练神经网络
10.2.1 训练过程：神经网络的训练包括前向（正向）传播（计算输出）和反向传播（调整权重），通过梯度下降算法来最小化预测输出与实际输出之间的误差。
10.2.2 归一化特征值：标准化，加快训练网络的收敛性，避免空值。
10.2.3 随机失活
可以减少过度拟合，提高准确率。
原理：对于同一组训练数据，利用不同的神经网络训练之后，求其输出的平均值可以减少过度拟合。随机失活每次失活一半的隐藏层神经元，相当于在不同的神经网络上进行训练，这样就减少了神经元之间的依赖性，即每个神经元不能依赖于某几个其他的神经元（是指层与层之间连接的神经元），使神经网络更加能学习到与其他神经元之间的更加健壮的特征。
10.3、多类别神经网络
3.1 模型会训练一些列二元分类器，使每个分类器都能回答单独的分类问题。
3.2 Softmax函数
为每个类别分配一个小数表示的概率，概率和为1。这种附加限制有助于让训练更快收敛。本质是逻辑回归的泛化。4.1
10.4、嵌入
10.4.1 概念
广泛应用于推荐系统中，是一种相对低维的空间，可以将高维向量映射到低维空间里。通过使用嵌入，可以使得在大型输入（比如代表字词的稀疏向量）上进行机器学习变得更加容易。
10.4.2 协同过滤：用来预测用户的兴趣
10.4.3 稀疏数据
10.4.4 获取嵌入
10.5 模型比较
线性模型 LinearClassifier ：没有太多要更新的参数或要反向传播的层，所以训练速度快；
深度神经网络（DNNClassifier)：提供额外模型的复杂性和能力

第11章“知识图谱”

需要掌握：知识图谱概念；知识图谱构建的关键技术。
11.1、知识图谱概念
11.1.1 概念
本质上，知识图谱旨在描述真实世界中存在的各种实体或概念机器关系，其构成一张巨大的语义网络图，节点表示实体或概念，边由属性或关系构成。泛指各种大规模知识库。
11.1.2 架构
包括自身的逻辑架构和构件知识图谱所采用的技术（体系）架构
11.1.3 构件知识图谱组成
（1）知识获取，主要是如何从非结构化、半结构化以及结构化数据中获取知识
（2）数据融合，主要是如何将从不同数据源获取的知识融合，构建数据之间的关联；
（3）知识计算及应用，关注的是基于知识图谱的计算功能以及基于知识图谱的应用。
11.1.4 在行业数据分析中的应用
（1）股票投研情报分析；
（2）公安情报分析；
（3）反欺诈情报分析
11.2、知识图谱构建的关键技术
知识图谱是一系列技术的组合，分成以下4个层次：
（1）知识提取：文本分析和抽取技术；
（2）知识融合：语义计算、数据整合和存储；
（3）知识加工：本体构建，分析推理；
（4）知识呈现：图谱可视化，搜索
11.2.1 知识提取：
（1）面向开放的链接数据：通常典型的输入是自然语言文本或者多媒体内容文档（图像或者视频）等，然后通过自动化或者半自动化的技术抽取出可用的知识单元，知识单元主要包括实体（概念的外延）、
关系以及属性3个要素，并以此为基础，形成一系列高质量的事实表达。
（2）非结构化数据：首先对非结构化数据提取正文，再通过自然语言技术识别文章中的实体，接着识别实体间的关系；
（3）半结构化数据：通过包装器学习半结构化数据的抽取规则，半结构化数据中具有大量的重复性结构，需要对数据进行少量的标注。
11.2.2 实体抽取方法
（1）基于百科或垂直站点抽取
（2）基于规则与词典的实体提取方法；
（3）基于统计机器学习的实体抽取方法；
（4）面向开放域的实体抽取方法；
11.2.3 语义类抽取
指从文本中自动抽取信息来构造语义类并建立实体和语义类的关联，作为实体层面上的规整和抽象。
（1）并列相似度计算；(2) 上下位关系提取（3）语义类生成；
11.2.4 属性和属性值抽取
（1）任务：为每个本体语义类构造属性列表（如城市的属性包括面积、人口、所在国家、地理位置），而属性值抽取则是为一个语义类的实体附加属性值。
（2）常用方法：
– 从百科类站点中提取
– 从垂直网站中进行包装器归纳
– 从网页表格中提取
– 利用手工定义或自动生成的模式从句子和查询日志中提取