YS_20190815_机器学习_02

人工智能的技术体系架构

  1. 机器学习的核心思想 -----------------很重点
  2. 进行算法讲解 (8种人工智能、机器学习的算法)+高数进行数据分析
  3. 建立人工智能模型,module
  4. 大量的利用数据集进行数据的交易 (输入数据 )-------通过模型去校验数据的维度《鲁棒性》—通过机器输出到外界!
  5. 数据集收集----预测未来
  6. 开发一个会聊天的机器人—模仿人类~~~ (卷积神经网络 、图像图像处理 、自然语言识别)
  • 卷积神经网络 :人类大脑如何和机器学习产生联系? 嵌入式《芯片》—传感器(代表人体神经系统)----机器学习的神经元组织!!
    芯片—传感器(代表人的神经)—机器学习的神经元组织----使机器学习的大脑具有(很大的数据仓库)
    通过数据集寻找数据输出结果,机器学习适合用来处理复杂的数据集、算法实现起来很复杂的业务。

人工智能的应用场景

  1. 个性化推荐:个性化指的是根据各种因素来改变用户体验和呈现给用户内容,这些因素可能包含用户的行为数据和外部因素;推荐常指系统向用户呈现一个用户可能感兴趣的物品列表。 :
  2. 精准营销:从用户群众中找出特定的要求的营销对象。
  3. 客户细分:试图将用户群体分为不同的组,根据给定的用户特征进行客户分组。
  4. 预测建模及分析:根据已有的数据进行建模,并使用得到的模型预测将来

数据分析、机器学习、数据挖掘的联系与区别

  • 数据分析:数据分析是指用适当的统计分析方法对收集的大量数据进行分析,并 提取"有用的信息",以及形成"结论",从而对数据进行详细的“研究”和“概括”过程。在实 际工作中,数据分析可帮助人们做出判断;数据分析一般而言可以分为 “统计分析”、 “探索性数据分析”和“验证性数据分析”三大类。
  • 数据挖掘:一般指从大量的数据中通过"算法搜索隐藏"于其中的信息的过程。通常 通过"统计"、“检索”、机器学习、"模式匹配"等诸多方法来实现这个过程。
  • 机器学习:将数据分析和数据挖掘整合就是 “数据集”。数据集就是机器学习的核心–数据算法终止~~是数据分析和数据挖掘的一种比较常用、比较好的手段。

机器学习的分类

  • 有监督学习:
    用"已知"某种或某些特性的"样本"作为"训练集",以建立一个"数学模型",再用已建立的模型来"预 测未知样本",此种方法被称为有监督学习, 是最常用的一种机器学习方法。是从"标签"化训 练数据集中"推断出模型"的机器学习任务。

重点模型数学模型:

  1. 判别式模型 g:x__y 对"联合条件概率p(x|y)"进行建模,----一次函数、二次函数、tan函数、cothans、cos函数…常见判别模型有: 线性回归、决策树、支持向量机SVM、k近邻、神经网络等;----重点技术!
  2. 生成式模型(Generative Model):对"联合分布概率p(x,y)"进行建模,—>正态分布、常见生成式模型有: 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等;
  3. 核心思想:生成式模型关注数据是"如何产生"的,寻找的是"数据分布模型"<p(x,y)>;判别式模型关注的数据的 差异性,寻找的是分类面

切记: 由生成式模型可以产生判别式模型,但是由判别式模式没法形成生成式模型-----思想:数据集的采集思想

  • 无监督学习:
  1. 无监督学习试图学习或者提取数据背后的数据特征,或者从数据中抽取出重要的特征信息。常见的算法有"聚类"、“降维”、"文本处理(特征抽取)"等。
  2. 与监督学习相比,无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程中, 数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。
    例如:超市的机器结账机 :通过产品的标志直接返回结账信息—节省了很大的人力成本问题!
  • 半监督学习(SSL):
    1. 考虑如何利用"少量"的"标注样本"和"大量的未标注样本"进行"训练"和"分类"的问题,是有监督学习 和无监督学习的结合
    2. SSL类型的算法主要分为四大类:半监督分类、半监督回归、半监督聚类、半监督降维
    3. 算法:分类算法、回归算法(线性回归)、多维、(矩阵)基于线性
    4. 缺点:抗干扰能力弱,仅适合于实验室环境,其现实意义还没有体现出来;未来的发展主要是聚焦于新模型假设的产生。
分类2
  1. 分类:通过分类模型,将样本数据集中的样本映射到某个给定的类别中
  2. 聚类:通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大
  3. 回归:反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
  4. 关联规则:获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率。

算法讲解:

  1. 分类决策树算法,决策树的核心算法,ID3算法的改进算法。
    C4.5算法:回归算法是基于 C4.5的决策数据集的返回结果 ---------结果是一个维度空间向量的值?list、元组、字典如:{[[1,2],[12,2],[-1,-3]]…}—>数据集
  2. (KNN)K近邻分类算法;如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别,那么该样本也属于该类别。

机器学习、人工智能和深度学习的关系

  1. 深度学习是机器学习的子类;
  2. 深度学习是基于传统神经网络算法发展到“多隐层”的一 种“算法”体现。
  3. 深度学习的核心:“多隐层”的一 种“算法”体现。

机器学习的开发流程

  1. 数据收集
    数据来源: 用户访问行为数据、页面数据、业务数据、后台—>Python和java、外部第三方数据 — 接口数据

  2. 数据"预"处理:指的是将采集的 "数据集"通过 算法,变为满足无监督 、有监督、半监督的学习过程数据!

  3. 特征提取:根据业务不同:例如:进行人脸识别 —提取?----调用接口(公安系统)----图像识别。例如:去新公司入职:打卡机人脸识别录入信息:示下动作(眨眨眼睛、张张嘴巴(因为张嘴巴会无法识别图像、导致特征无法提取!–将张嘴巴的数据图片特征保存到数据集里面)、摇摇头…)----因为人的全部特征提取不到,尤其是耳朵!证明无法观看!导致数据集缺失!

    备注:人工智能是一门整合了很多学科的技术(特征、图像等属于生物;算法属于数学,物理;自然语言处理----语文等)

  4. 模型构建 ----上官网看源码案例!

  5. 模型测试评估 P

  6. 投入使用(模型部署与整合) 迭代优化表示的是数据集完整的交给机器学习处理!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值