如同其他数据中存在噪点数据,遥感影像数据也有,但这两个”噪点“的含义是不同的。一些数据中的”脏数据“可能真的是无用的、甚至是错误的,但遥感影像所展现的地面全部是真实的,本不存在”噪点“一说。
假设我们使用基于光谱特征的聚类方法对遥感影像进行聚类,有些像素(数据点)就是如此的突兀——它和周边的就是迥然相异。比如一个工业区的遥感影像,我们从高空俯视,水体是水体、植被是植被、混凝土建筑是混凝土,但为什么混凝土建筑中有几个黑乎乎的区域呢?直接分类的话,我们可能会将它们分为另一类,甚至与其他黑乎乎的东西混杂起来归为一类。但其实这些黑乎乎的只是电厂的冷凝塔从高空俯视的黑洞,在现实意义里,它们实际上应与混凝土建筑归为一类。而在聚类的操作中,我们单单只根据光谱特征,就导致它们或许与混凝土建筑风牛马不相及。类似的遥感影像细节区域很多,有的是如同冷凝塔的重要细节(我们是不是可以通过冷凝塔直接判别电厂?),有的只是普通的细节,但在聚类中这些细节区域统统被归为”噪点“,对分类结果颇有影响。
为减少噪点的影响,我们一般在聚类之前对图像进行平滑处理(比如mean-shift算法),既抑制噪点、平滑图像、又可以保持地物原有的边界轮廓。
综上所述,我认为在类似聚类的纯数据分析的方法下,信息的丢失不可避免,噪点就是一个很好的例子。但本身我们研究的专题就决定了我们必须选择一些数据、舍弃一些数据,这是无可厚非的。我们必须采用这个数据、我们必须采用此种方法、我们必须按照这个步骤来,在多重限制条件之下,我们只能尽可能减少类似”噪点“的误差来使自己的实验获得预期效果。