人工智能的技术体系架构
- 机器学习的核心思想 -----------------很重点
- 进行算法讲解 (8种人工智能、机器学习的算法)+高数进行数据分析
- 建立人工智能模型,module
- 大量的利用数据集进行数据的交易 (输入数据 )-------通过模型去校验数据的维度《鲁棒性》—通过机器输出到外界!
- 数据集收集----预测未来
- 开发一个会聊天的机器人—模仿人类~~~ (卷积神经网络 、图像图像处理 、自然语言识别)
- 卷积神经网络 :人类大脑如何和机器学习产生联系? 嵌入式《芯片》—传感器(代表人体神经系统)----机器学习的神经元组织!!
芯片—传感器(代表人的神经)—机器学习的神经元组织----使机器学习的大脑具有(很大的数据仓库)
通过数据集寻找数据输出结果,机器学习适合用来处理复杂的数据集、算法实现起来很复杂的业务。
人工智能的应用场景
- 个性化推荐:个性化指的是根据各种因素来改变用户体验和呈现给用户内容,这些因素可能包含用户的行为数据和外部因素;推荐常指系统向用户呈现一个用户可能感兴趣的物品列表。 :
- 精准营销:从用户群众中找出特定的要求的营销对象。
- 客户细分:试图将用户群体分为不同的组,根据给定的用户特征进行客户分组。
- 预测建模及分析:根据已有的数据进行建模,并使用得到的模型预测将来
数据分析、机器学习、数据挖掘的联系与区别
- 数据分析:数据分析是指用适当的统计分析方法对收集的大量数据进行分析,并 提取"有用的信息",以及形成"结论",从而对数据进行详细的“研究”和“概括”过程。在实 际工作中,数据分析可帮助人们做出判断;数据分析一般而言可以分为 “统计分析”、 “探索性数据分析”和“验证性数据分析”三大类。
- 数据挖掘:一般指从大量的数据中通过"算法搜索隐藏"于其中的信息的过程。通常 通过"统计"、“检索”、机器学习、"模式匹配"等诸多方法来实现这个过程。
- 机器学习:将数据分析和数据挖掘整合就是 “数据集”。数据集就是机器学习的核心–数据算法终止~~是数据分析和数据挖掘的一种比较常用、比较好的手段。
机器学习的分类
- 有监督学习:
用"已知"某种或某些特性的"样本"作为"训练集",以建立一个"数学模型",再用已建立的模型来"预 测未知样本",此种方法被称为有监督学习, 是最常用的一种机器学习方法。是从"标签"化训 练数据集中"推断出模型"的机器学习任务。
重点模型数学模型:
- 判别式模型 g:x__y 对"联合条件概率p(x|y)"进行建模,----一次函数、二次函数、tan函数、cothans、cos函数…常见判别模型有: 线性回归、决策树、支持向量机SVM、k近邻、神经网络等;----重点技术!
- 生成式模型(Generative Model):对"联合分布概率p(x,y)"进行建模,—>正态分布、常见生成式模型有: 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等;
- 核心思想:生成式模型关注数据是"如何产生"的,寻找的是"数据分布模型"<p(x,y)>;判别式模型关注的数据的 差异性,寻找的是分类面
切记: 由生成式模型可以产生判别式模型,但是由判别式模式没法形成生成式模型-----思想:数据集的采集思想
- 无监督学习:
- 无监督学习试图学习或者提取数据背后的数据特征,或者从数据中抽取出重要的特征信息。常见的算法有"聚类"、“降维”、"文本处理(特征抽取)"等。
- 与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中, 数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
例如:超市的机器结账机 :通过产品的标志直接返回结账信息—节省了很大的人力成本问题!
- 半监督学习(SSL):
1. 考虑如何利用"少量"的"标注样本"和"大量的未标注样本"进行"训练"和"分类"的问题,是有监督学习 和无监督学习的结合
2. SSL类型的算法主要分为四大类:半监督分类、半监督回归、半监督聚类、半监督降维
3. 算法:分类算法、回归算法(线性回归)、多维、(矩阵)基于线性
4. 缺点:抗干扰能力弱,仅适合于实验室环境,其现实意义还没有体现出来;未来的发展主要是聚焦于新模型假设的产生。
分类2
- 分类:通过分类模型,将样本数据集中的样本映射到某个给定的类别中
- 聚类:通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大
- 回归:反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
- 关联规则:获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率。
算法讲解:
- 分类决策树算法,决策树的核心算法,ID3算法的改进算法。
C4.5算法:回归算法是基于 C4.5的决策数据集的返回结果 ---------结果是一个维度空间向量的值?list、元组、字典如:{[[1,2],[12,2],[-1,-3]]…}—>数据集 - (KNN)K近邻分类算法;如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别,那么该样本也属于该类别。
机器学习、人工智能和深度学习的关系
- 深度学习是机器学习的子类;
- 深度学习是基于传统神经网络算法发展到“多隐层”的一 种“算法”体现。
- 深度学习的核心:“多隐层”的一 种“算法”体现。
机器学习的开发流程
-
数据收集
数据来源: 用户访问行为数据、页面数据、业务数据、后台—>Python和java、外部第三方数据 — 接口数据 -
数据"预"处理:指的是将采集的 "数据集"通过 算法,变为满足无监督 、有监督、半监督的学习过程数据!
-
特征提取:根据业务不同:例如:进行人脸识别 —提取?----调用接口(公安系统)----图像识别。例如:去新公司入职:打卡机人脸识别录入信息:示下动作(眨眨眼睛、张张嘴巴(因为张嘴巴会无法识别图像、导致特征无法提取!–将张嘴巴的数据图片特征保存到数据集里面)、摇摇头…)----因为人的全部特征提取不到,尤其是耳朵!证明无法观看!导致数据集缺失!
备注:人工智能是一门整合了很多学科的技术(特征、图像等属于生物;算法属于数学,物理;自然语言处理----语文等)
-
模型构建 ----上官网看源码案例!
-
模型测试评估 P
-
投入使用(模型部署与整合) 迭代优化表示的是数据集完整的交给机器学习处理!