学习笔记 | 机器学习简介

云计算大数据及人工智能

云计算

  • 是一种按使用量付付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入极少的管理工作,或与服务供应商进行很少的交互

大数据

  • 大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要更新处理模式才能具有更强的决策力、洞察力。

云计算与大数据

  • 云计算提供存储和计算的基础设施,大数据是运行在其上的实际应用

人工智能

  • 简而言之,就是会学习的计算机程序
    • 弱人工智能(AlphaGo)
    • 强人工智能(多领域)
    • 超人工智能(全方位碾压人类)
  • 人工智能与棋类游戏

机器学习

  • 机器学习指机器通过统计学算法,对大量历史数据进行学习而生成经验模型,利用经验模型指导业务。
  • 对于某类任务T性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么称计算机程序从经验E学习
基础奠定时期:40年代末到60年代中
  • 图灵测试
  • Hebb学习规则
  • 跳棋程序 自我学习中提高对局能力
  • 感知机
  • 线性不可分XOR
停滞期:60年代到70年代
复兴时期:70年代到80年代末

常见算法分类

算法

  • 算法是利用计算机解决特定问题的处理步骤,是有限操作的集合。

常见机器学习算法分类

  • 有监督学习:用一组已知类别的样本来训练模型。输入数据均有一个明确的标识或结果,即我们提供样例教计算机如何学习。
  • 无监督学习:从无标记的训练数据中推断结论。特点为输入数据不存在明确的标识或结果。计算机根据我们提供的材料‘自动’学习,给定数据,寻找隐藏的结构或模式

有监督学习

分类

  • 通过已有数据集的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的(若y为连续性的,则属于回归算法)。通过对一直类别训练的分析,从中发现分类规则,一次预测新数据的类别。
  • 按远离分类
    • 基于统计的:贝叶斯分类
    • 基于规则的:决策树算法
    • 基于神经网络的:神经网络算法
    • 基于距离的:KNN算法

KNN

  • 如果离某一个样本最近的k个样本中的大多数属于某一个类别,则改样本也属于这个类别,并具有这个类别上样本的特性。KNN不但可以预测分类,还可以做回归分析。
  • youN个已知分类结果的样本点,对新纪录r使用KNN将其分类的步骤:
    1. 确定k值,确定计算距离的公式,比如欧式距离
    2. 计算r和其他样本之间的距离d
    3. 得到目前和r最接近的k个样本,作为KNN距的样本
    4. 将k个样本中最多归属类别的分类标签赋予新纪录r,分类结束
repeat
    计算已知类别数据集中的点与当前之间的距离
    按照距离递增次序排序
until   样本点遍历完成
return  前k个样本点
统计k个样本点中出现频率最高的类别标签

决策树:构建流程

信息熵
  • 描述混乱程度的度量
  • 取值范围0~1,值越大,越混乱
  • 熵的计算公式一般取2为对数底
H(U)=E[-\log p_i]=\sum_{i=1}^n -p_i \log p_i
信息增益和特征选择
  • 信息增益
    • 信息是确定性的增加
    • 从一个状态到另一个状态信息的变化
    • 信息增益越大,对确定性贡献越大
构建决策树
graph TB
start[选择当前最佳特征]-->A[按照取值产生分支]
A-->B{满足分支终止条件}
B-->|Yes|C{是否有待处理分支}
B-->|No|start
C-->|No|D[生成结果处理结束]
C-->|Yes|start
  • 第一级特征选择
    • 计算整体的熵
    • 计算各个特征的熵
    • 计算各个特征的信息增益
    • 选择出信息增益最大的特征因素作为第一级决策特征

无监督学习算法

  • 从无标记的训练数据中推断结论

聚类算法

  • 聚类:就是将相似的事物聚集在一起,而将不相似的事物划分到不同类别的过程。是一种探索性的分析,不必事先给出分类标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析使用的方法不同,常会得到不同的结论。
K-Means
  • K均值聚类,属于划分聚类。根据初始化的聚类中心信息,计算每个样本到这些中心的距离,可以判断每个样本均属于某个类簇,更新聚簇中心信息
步骤
  1. 确定聚类个数,确定聚类中心,确定距离计算公职(观察法、枚举法、其他技术手段)
  2. 计算每个点和聚类中心的距离,归类
  3. 计算当前类簇中心,更新聚类中心Ck的位置
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值