一些学习笔记--机器学习ML演变过程

ML发展
  • rule-based systems: input -> hand-designed program -> output
    图搜索、树搜索等
  • classic machine learning: input -> hand-designed features -> mapping from features -> output
  • representation learning: input -> features -> mapping from features -> output
    不同于传统的ML,此处的特征不再是手工构造,而是希望通过模型得到特征
    因为维度诅咒:特征的维度越高,需要的数据量越大,所需成本也越高。
  • deep learning: input -> simple features -> additional layers of more abstract features -> mapping from features -> output
    DL与表示学习的区别是,DL学习中feature的学习和模型训练的过程是一起的,而之前是分开的,所以DL也叫做end-end 端到端的训练
1.1 传统的ML

在实际任务中使用机器学习模型一般会包含以下几个
步骤:
1)数据预处理:经过数据的预处理,如去除噪声等.比如在文本分类中,去除停用词等。
2)特征提取:从原始数据中提取一些有效的特征.比如在图像分类中,提取边缘、尺度不变特征变换特征等。
3)特征转换:对特征进行一定的加工,比如降维和升维. 很多特征转换方法也都是机器学习方法.降维包括特征抽取(Feature Extraction)和特征选择(Feature Selection)两种途径.常用的特征转换方法有主成分分析(Principal Components Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)等。
4)预测:机器学习的核心部分,学习一个函数并进行预测。

1.2 表示学习

可以自动地学习出有效的特征,并提高最终机器学习模型的性能的学习就可以叫作表示学习(Representation Learning)。

1.表示学习的两个核心问题:什么叫好的表示,如何学到好的表示
问题1:什么叫好的表示
a 应该具有很强的表示能力(同样大小的向量可以表示更多信息);b 应该使后续的学习任务变得简单(包含更高层的语义信息);c 具有一般性,希望学到的表示可以比较容易的迁移到别的任务上。
问题2: 如何得到好的表示
通常需要从底层特征开始,经过多步非线性转换才能得到。深层结构的优点是可以增加特征的重用性,从而指数级地增加表示能力。因此,表示学习的关键是构建具有一定深度的多层次特征表示
注:连续多次的线性转换等价于一次线性转换。
2. 表示特征的两种方式:局部表示和分布式表示
2.1 局部表示:也称为离散表示或符号表示.局部表示通常可以表示为one-hot向量的形式,例如:以不同名字来命名不同的颜色。

  • one-hot举例:
    假设所有颜色的名字构成一个词表 𝒱,词表大小为 |𝒱|。我们可以用一个|𝒱|维的one-hot向量来表示每一种颜色。在第𝑖 种颜色对应的one-hot向量中,第𝑖 维的值为1,其他都为0。
  • 局部表示的优缺点:
    优点:1)这种离散的表示方式具有很好的解释性,有利于人工归纳和总结特征,并通过特征组合进行高效的特征工程;2)通过多种特征组合得到的表示向量通常是稀疏的二值向量,当用于线性模型时计算效率非常
    高。
    缺点::1)one-hot向量的维数很高,且不能扩展。如果有一种新的颜色,我们就需要增加一维来表示;2)不同颜色之间的相似度都为0,即我们无法知道“红色”和“中国红”的相似度要高于“红色”和“黑色”的相似度。

2.1 分布式表示:也叫分散式表示。例如:使用RGB值来表示颜色。

  • 分布式表示表示能力强,维度更低,相似度也更容易计算。
  • 嵌入embedding:使用神经网络来将高维的局部表示空间 R ∣ ν ∣ R^{|\nu|} Rν 映射到一个非常低维的分布式表示空间 R D R^{D} RD,𝐷 ≪ |𝒱|。在这个低维空间中,每个特征不再是坐标轴上的点,而是散落在整个低维空间中的点,这个过程叫做嵌入embedding。nlp中常叫做词嵌入。
    嵌入:指将一个度量空间中的一些对象映射到另一个低维的度量空间中,并尽可能保持不同对象之间的拓扑关系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值