1.局部表示
咱们常见的离散型数值,符号等,用的都是局部表示;比如鸢尾花数据集的特征值,类别号;
还有一个常见的局部表示就是one-hot编码,把一些文字性的特征值进行编码。
优点:
①经过one-hot编码后,多种特征进行组合后,是一个稀疏的矩阵,当用于线性模型的计算时效率非常高
②离散的表示方式有很好的解释性,有利于人工归纳和总结特征
缺点:
①经过one-hot编码后,两两特征之间的相关性就是0,无法正确表示出它们之间的相关性
②one-hot向量维度特别大,而且还不能扩展,如果进来一个新的特征值,就得再加一维
2.分布式表示
分布式表示最本质的就是嵌入,将高维数据压缩到低维表示,并且不改变它们之间的基本位置关系,拓扑关系
eg:颜色的数据用RGB三个值来表示,不是使用one-hot对各个颜色值进行编码
优点:
能降低数据存储维度,用低维表示高维,压缩数据