离散数据和连续数据及相关内容的个人理解

离散数据和连续数据的定义

离散数据

例:[‘a’, ‘man’, ‘is’, ‘playing’]
离散数据取值可以具有有限个或无限可数个值,这个值可以用来定性描述属性的汉字、单词;当然也可以是整数,注意是整数,而不是浮点数,比如年龄属性就属于离散属性,可取0~110之间的任意整数。无限可数是指这个属性的可能取值的集合是无限的,但是可以建立一个与自然数的一一对应,比如顾客编号可以从1一直往后编下去,但实际的值的集合是可数的。对于离散的特征可以按照one-hot(独热)编码,该离散特征有多少取值,就用多少维来表示该特征,或者用embeddeding将单词映射到低维空间。one-hot只是单向映射关系,用数字表示单词;embedding除了表示单词外还可体现单词之间的联系。比如词性相近的embeding余弦相似度越高。常见的离散型变量分布有二项分布、多项分布和泊松分布。

连续数据

例:图像
往往采用归一化和标准化操作。使连续特征放缩到一个区间并满足正态分布。常见的连续型变量分布有:均匀分布、正态分布和指数分布。

离散分布和连续分布的采样

离散分布采样

例:对分类器最后输出的概率分布采样。
如Gumbel Softmax。
在这里插入图片描述

连续分布采样

例:在VAE中从正态分布中采样隐变量z。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值