对于监督学习,有一些多余的特征影响不大,对于无监督学习,更难发现哪些特征是可忽略的。
对于无监督学习,尽量使特征是高斯分布的。例如下图中 x 的分布看起来不是对称的钟形分布,可以通过取对数使它变得更像高斯分布,这样会使模型更好地拟合数据。实际中可以尝试几个不同的 c 来确定哪个使数据变得更加像高斯分布。不加 c 的话有的 x 会使 log函数没有意义,尝试加一个小小的 c 并不断调整。
注意,对训练集做的操作同样也要对交叉验证集和测试集做。
对于监督学习,有一些多余的特征影响不大,对于无监督学习,更难发现哪些特征是可忽略的。
对于无监督学习,尽量使特征是高斯分布的。例如下图中 x 的分布看起来不是对称的钟形分布,可以通过取对数使它变得更像高斯分布,这样会使模型更好地拟合数据。实际中可以尝试几个不同的 c 来确定哪个使数据变得更加像高斯分布。不加 c 的话有的 x 会使 log函数没有意义,尝试加一个小小的 c 并不断调整。
注意,对训练集做的操作同样也要对交叉验证集和测试集做。