人工智能与大数据技术导论-13011知识点记录_13011人工智能与大数据技术导论(2)

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

(1)应用安全;(2)数据安全;(3)主机安全;(4) 网络安全; (5)物理安全;
3.5.7 数据准备-ETL
(1)数据清洗(Extract):数据补缺、数据替换、格式规范化、主外键约束;
(2)数据转换(Transform): 数据合并、拆分、行列互换、数据验证
(3)数据加载(Load): 时间戳、日志表、全表对比、全表删除插入方式
3.5.8 数据平台总结
大数据平台实现数据的分层与水平解耦,沉淀公共的数据能力。分为三层:数据模型(技术)、数据服务和数据开发,通过数据建模实现跨域数据的整合和知识沉淀,通过数据服务实现对于数据的封装和开发,快速、灵活地满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要。

第4章“机器学习”

需要掌握:机器学习基本概念;数据预处理。
4.1、机器学习基本概念
1.1 概念:让机器从大量样本数据中自动学习其规则,并根据学习到的规则预测未知数据的过程。
1.2 本质:输入到输出的映射。类似人脑思考,机器经过大量样本的训练,获得了一定的经验(模型),从而产生了能够推测(推断或推理)新的事物的能力。
1.3 几个重要的术语:
(1) 数据集 - dataSet :样本数据,包含训练集、验证集、测试集
训练集:用于训练模型,确定模型中的参数;
验证集:用于模型的选择和优化;
测试集:用于对已经训练好的模型进行评估,评价其表现;
(2)目标/标签 -target :因变量,关注的结果
(3)特征 feature:自变量,用来解释和预测结果的其他变量; 数据类型包括:数值型、分类型、文本、日期
1.4 机器学习的任务流程:
数据导入-》探索性分析-》数据清洗-》特征工程-》算法选择和优化-》模型训练和评估
4.2、数据预处理
包含探索性分析、数据清洗、特征工程
4.2.1 探索性分析
概念:通过图表等可视化工具对原始数据进行大致了解和初步分析的过程。
作用:(1)了解数据集的基本信息;(2)给数据清洗提供方向;(3)为特征工程提供方向;
4.2.2 数据清洗
脏数据的情况:
(1)存在重复记录的数据;
(2)存在不相关记录
(3)无用的特征信息;
(4)文字拼写错误
(5)信息格式不统一
(6)明显错误的离群值
(7)缺失数据
4.2.3 特征工程
从原始数据中找到合适的特征集的过程

第5章“模型”

需要掌握:模型概念;模型的训练;梯度下降法;模型的拟合效果;模型的评估与改进。

5.1、模型概念
模型刻画了因变量y和自变量x之间的客观关系,即y与x之间存在一种形象的客观规律在约束。模型是对处理变量关系的某种假设。
5.2、模型的训练
5.2.1 概念:训练一个模型就是从训练数据中确定所有权重和偏差的最佳值,参数的求解
训练的目标是找到让误差最小的权重和偏差。
5.2.2 均方误差 MSE: 是回归模型中的一个重要概念,描绘了整个考察的样本集中预测值和实际值的平均偏离程度。
5.2.3 误差函数是为了评估模型拟合的好坏,通常用误差函数来度量拟合的程度。误差函数极小化意味着拟合程度最好,对应的模型参数即为最优参数。
5.3、梯度下降法
5.3.1 类似贪心算法,每次梯度下降都选取局部最优解。如果误差函数是凸函数,梯度下降法得到的解一定是全局最优解(梯度为0)。
5.3.2 误差函数的最小值就是误差函数收敛的位置。
5.3.3 步长:在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。
5.3.4 常见梯度下降方法:
(1)批量梯度下降法;(2)随机梯度下降法;(3)小批量随机梯度下降法;
5.4、模型的拟合效果
5.4.1 欠拟合:模型过于简单,对于部分数据刻画较差,训练的时间不够;(实际应用中,出现较少)
5.4.2 过度拟合:参数过多,对训练集的匹配度太高、太准确,以至于在后面的预测过程中可能会导致预测值非常偏离合适的值,预测非常不准确。
5.4.3 过度拟合的处理方法:
(1)使用更多训练数据;
(2)使用正则化,改变误差函数,在误差函数原有的基础上加入惩罚项;
(3)早停法,在迭代过程中提早结束迭代;
(4)使用集成算法
(5)减少特征的数量
5.5、模型的评估和改进
5.5.1 回归模型
评价指标:均方误差-MSE 平均绝对误差-MAE
5.5.2 分类模型
评价指标:准确率、精确率、召回率、ROC曲线、误分率
(1)准确率 = 预测正确的样本数据 / 综样本数
误分率 = 1- 准确率
(2)精确率
预测为正的样本中确实为正值的比率
(3)召回率
所有真实值为正的样本中被我们预测为正值的比率。
5.5.3 模型改进
(1)使用更多人为标注的标签数据;
(2)手动进行误差分析;
(3)进行效果更好的Bias-Variance(偏差-方差)分析

第6章“机器学习算法”

需要掌握:算法概述;支持向量机算法;逻辑回归算法;KNN算法;决策树算法;聚类算法
6.1、算法概述
6.1.1 概念
机器学习算法可以描述为学习一个目标函数f,它能够最好地映射出输入变量x到输出变量y。
6.1.2 算法选择要考虑:
(1)数据的大小、质量和类型;
(2)完成计算所需要的时间
(3)任务的紧迫程度
(4)你需要对数据做什么处理
6.2、支持向量机算法(SVM)
6.2.1 选择一个超平面(一条直线),它能最好地将输入变量空间划分为不同的类(0/1);超平面和最接近的点的距离看作一个差值,最好地超平面可以把所有数据划分为两个类,并且这个差值最大。
这些点称为支持向量。
6.2.2 对于线性不可分的情况,SVM的解决方案是通过核函数进行空间转换,将低位空间投射到高位空间中去,使经过变换后的样本点实现线性可分。本质上是线性分类器。
6.3、逻辑回归算法
6.3.1 是一种常见的分类模型,标签数据必须是离散型变量;逻辑回归的目的是找出每个输入变量对应的参数值。
6.3.2 合适用于处理二分类问题。、
6.3.3 最近的距离:欧几里得距离;其他距离:曼哈顿距离;切比雪夫距离;
6.4、K最邻近算法 (KNN)
6.4.1 一种简单有效的算法,但计算量大,适合用于输入变量和输出预测变量最具有相关性的场景;
6.4.2 对于新数据点的预测:寻找整个训练集中K个最相似的样本(邻居),并对这些样本的输出变量进行总结。
6.5、决策树算法
6.5.1 用二叉树来解释决策树模型,不需要对数据做特殊处理,使用简单;具有极高的可解释性;容易出现过度拟合;
6.5.2 CART决策树模型
6.6、聚类算法
6.6.1 聚类
将数据分类到不同的类或者簇这样的一个过程,同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。非监督式学习;
6.6.2 K均值聚类-K-Means
(1)将n个数据样本划分成k个聚类的算法,使得同一聚类中的样本相似度较高,不同聚类样本的相似度较低。
(2)是一个反复迭代求解的过程,速度快;
6.6.3 均值漂移聚类
一个基于滑动窗口的算法,目标是定位每个组/类的中心点,通过将中心点的候选点更新为滑动窗口内点的均值来完成。
6.6.4 基于密度的聚类方法 DBSCAN
6.6.5 用高斯混合模型的最大期望聚类 GMMs
假设数据点是高斯分布的,用均值和标准差这2个参数来描述簇的形状。
6.6.6 凝聚层次聚类
6.6.7 图团体检测

第7章“深度学习”

需要掌握:深度学习概念;神经网络的训练;神经网络的优化和改进;卷积神经网络。
7.1、深度学习概念
7.1.1 概念:是把大量数据输入一个非常复杂的模型,让模型自己探索有意义的中间表达。
本质:用深度神经网络处理海量数据,属于机器学习的一种模型
优势:让神经网络自己学习如何抓取特征,整合了特征提取的过程,可以自动学习数据集的特征。
7.2、神经网络的训练
7.2.1 神经网络组成:由神经元、网状结构、激活函数构成;
7.2.2 神经网络计算过程: (1)对输入变量施加线性组合;(2)套用激活函数;(3)重复前2步;
7.2.3 深度神经网络:使用了多个隐藏层的神经网络,模型的准确率提高;
7.2.4 代价函数:衡量模型预测值和真实值之间的偏离程度。
7.2.5 正向传播:正常输入计算到数据的过程;
反向传播:为了优化代价函数,修正神经网络中参数的过程。目的是修正参数。
7.3、神经网络的优化和改进
7.3.1 优化的目的
让算法更快收敛,使得速度加快。
7.3.2 常见优化策略
(1)Mini-Batch (2)输入数据标准化; (3)动量方法(Momentum)
7.3.3 正则化方法
目的是防止模型过度拟合。
常见方式: L1/L2正则化 ; Dropout(随机失活)
7.4、卷积神经网络
7.4.1 卷积运算
将一个矩阵和另一个“矩阵乘子” 通过特定规则计算出一个新的矩阵的过程。
目的:提取输入的不同特征,第一层卷积层可能只能提取到一些低级的特征,如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。
7.4.2 卷积层
对上一层的输入数据进行卷积运算,将得到的结果传递给下一层。

第10章“神经网络”

需要掌握:神经网络概念;训练神经网络;多类别神经网络;嵌入。
10.1、神经网络概念
10.1.1 概念:是一种模仿人脑神经元工作方式的计算和学习系统。它通过将多个神经元按照一定的规则连接起来,形成一个网络,以实现对信息的处理和传递。神经网络通常包括输入层、隐藏层和输出层,其中同一层的神经元之间没有连接,而不同层的神经元之间通过权重相连。神经网络的训练过程包括前向计算和反向传播,通过梯度下降算法来调整网络的权重,以获得最佳的预测或分类结果。
10.1.2 标准组件:
(1)一组节点:类似于神经元,位于层中。
(2)一组权重:表示每个神经网络层于其下方的层之间的关系。下方的层可能是另一个神经网络层,也可能是其他类型的层。
(3)一组偏差,每个节点一个偏差。
(4)一个激活函数,对层中每个节点的输出进行转换。不同的层可能拥有不同的激活函数。
10.2、训练神经网络
10.2.1 训练过程:神经网络的训练包括前向(正向)传播(计算输出)和反向传播(调整权重),通过梯度下降算法来最小化预测输出与实际输出之间的误差。
10.2.2 归一化特征值:标准化,加快训练网络的收敛性,避免空值。
10.2.3 随机失活
可以减少过度拟合,提高准确率。
原理:对于同一组训练数据,利用不同的神经网络训练之后,求其输出的平均值可以减少过度拟合。随机失活每次失活一半的隐藏层神经元,相当于在不同的神经网络上进行训练,这样就减少了神经元之间的依赖性,即每个神经元不能依赖于某几个其他的神经元(是指层与层之间连接的神经元),使神经网络更加能学习到与其他神经元之间的更加健壮的特征。
10.3、多类别神经网络
3.1 模型会训练一些列二元分类器,使每个分类器都能回答单独的分类问题。
3.2 Softmax函数
为每个类别分配一个小数表示的概率,概率和为1。这种附加限制有助于让训练更快收敛。本质是逻辑回归的泛化。4.1
10.4、嵌入
10.4.1 概念
广泛应用于推荐系统中,是一种相对低维的空间,可以将高维向量映射到低维空间里。通过使用嵌入,可以使得在大型输入(比如代表字词的稀疏向量)上进行机器学习变得更加容易。
10.4.2 协同过滤:用来预测用户的兴趣
10.4.3 稀疏数据
10.4.4 获取嵌入
10.5 模型比较
线性模型 LinearClassifier :没有太多要更新的参数或要反向传播的层,所以训练速度快;
深度神经网络(DNNClassifier):提供额外模型的复杂性和能力

第11章“知识图谱”

需要掌握:知识图谱概念;知识图谱构建的关键技术。
11.1、知识图谱概念
11.1.1 概念
本质上,知识图谱旨在描述真实世界中存在的各种实体或概念机器关系,其构成一张巨大的语义网络图,节点表示实体或概念,边由属性或关系构成。泛指各种大规模知识库。
11.1.2 架构
包括自身的逻辑架构和构件知识图谱所采用的技术(体系)架构
11.1.3 构件知识图谱组成
(1)知识获取,主要是如何从非结构化、半结构化以及结构化数据中获取知识
(2)数据融合,主要是如何将从不同数据源获取的知识融合,构建数据之间的关联;
(3)知识计算及应用,关注的是基于知识图谱的计算功能以及基于知识图谱的应用。
11.1.4 在行业数据分析中的应用
(1)股票投研情报分析;
(2)公安情报分析;
(3)反欺诈情报分析
11.2、知识图谱构建的关键技术
知识图谱是一系列技术的组合,分成以下4个层次:
(1)知识提取:文本分析和抽取技术;
(2)知识融合:语义计算、数据整合和存储;
(3)知识加工:本体构建,分析推理;
(4)知识呈现:图谱可视化,搜索
11.2.1 知识提取:
(1)面向开放的链接数据:通常典型的输入是自然语言文本或者多媒体内容文档(图像或者视频)等,然后通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、
关系以及属性3个要素,并以此为基础,形成一系列高质量的事实表达。
(2)非结构化数据:首先对非结构化数据提取正文,再通过自然语言技术识别文章中的实体,接着识别实体间的关系;
(3)半结构化数据:通过包装器学习半结构化数据的抽取规则,半结构化数据中具有大量的重复性结构,需要对数据进行少量的标注。
11.2.2 实体抽取方法
(1)基于百科或垂直站点抽取
(2)基于规则与词典的实体提取方法;
(3)基于统计机器学习的实体抽取方法;
(4)面向开放域的实体抽取方法;
11.2.3 语义类抽取
指从文本中自动抽取信息来构造语义类并建立实体和语义类的关联,作为实体层面上的规整和抽象。
(1)并列相似度计算;(2) 上下位关系提取 (3)语义类生成;
11.2.4 属性和属性值抽取
(1)任务:为每个本体语义类构造属性列表(如城市的属性包括面积、人口、所在国家、地理位置),而属性值抽取则是为一个语义类的实体附加属性值。
(2)常用方法:
– 从百科类站点中提取
– 从垂直网站中进行包装器归纳
– 从网页表格中提取
– 利用手工定义或自动生成的模式从句子和查询日志中提取

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

)]
[外链图片转存中…(img-ttHU6Ope-1715726474279)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

  • 8
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值