表征学习 Representation Learning(特征学习、表示学习)是什么?

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

和预测性学习(Predictive Learning)不同,表征学习的目标不是通过学习原始数据预测某个观察结果,而是学习数据的底层结构(underlying structure),从而可以分析出原始数据的其它特性。表征学习允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。在机器学习任务中,输入数据例如图片、视频、语言文字、声音等都是高维且冗余复杂,传统的手动提取特征已变得不切合实际,所以需要借助于优秀的特征学习技术。

类似于机器学习,特征学习可以被分为两类:监督式特征学习(Supervised Representation Learning)和无监督式特征学习(Unsupervised Representation Learning)。在监督特征学习中,被标记过的数据被当做特征用来学习。例如神经网络(Neural Networks),多层感知器(Multi-Layer Perception),监督字典学习(Supervised Dictionary Learning)。在无监督特征学习中,未被标记过的数据被当做特征用来学习。例如无监督字典学习(Unsupervised Dictionary Learning),主成分分析(Principal Component Analysis),独立成分分析(Independent Component Analysis),自动编码(Auto-encoders),矩阵分解(Matrix Factorization) ,各种聚类分析(Clustering)及其变形。

参考文章:表征学习

PyTorch是一个流行的深度学习框架,它也支持表征学习表征学习是指通过自动学习将输入数据映射到一个新的表示空间,使得这个新的表示能更好地捕捉和表示数据的关键特征。在PyTorch中,可以使用神经网络模型来进行表征学习。 常用的表征学习方法包括自编码器(Autoencoder)、变分自编码器(Variational Autoencoder)和生成对抗网络(Generative Adversarial Networks)。这些方法可以通过在PyTorch中定义相应的模型架构和训练过程来实现。 自编码器是一种无监督学习方法,它由编码器和解码器两部分组成。编码器将输入数据映射到低维的隐藏表示,解码器则将隐藏表示映射回原始数据空间。通过最小化重构误差,自编码器可以学习到数据的一种紧凑的表示。 变分自编码器是自编码器的一种扩展形式,它引入了隐变量和概率分布的概念。通过最大化对数似然函数,变分自编码器能够学习到数据的潜在分布,并生成新的样本。 生成对抗网络由生成器和判别器两部分组成。生成器试图生成逼真的样本,而判别器则尝试区分生成的样本和真实样本。通过对抗训练的方式,生成对抗网络可以学习到数据分布的特征,并生成更加逼真的样本。 在PyTorch中,可以使用torch.nn模块来定义表征学习模型的架构,使用torch.optim模块来定义优化算法,并使用torch.utils.data模块来加载和处理数据。同时,PyTorch也提供了一些预训练的表征学习模型,如BERT、GPT等,可以直接在实际任务中进行微调和应用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dontla

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值