(更多数学原理小文请关注公众号:未名方略)
医学影像应用场景的特点是训练数据少,数据分布高度不均匀,数据标注的一致性较差,数据类型丰富(多模态,文本+影像等)。
1 除最大值法
def read_and_normalize_train_data():
train_data, train_label = load_train()
print('Convert to numpy...')
train_data = np.array(train_data, dtype=np.uint8) # now np.amax(train_data)=255
print('Convert to float...')
train_data = train_data.astype('float32')
train_data = train_data / 255
train_target = np_utils.to_categorical(train_target, N_CLASSES)
print('Train shape:', train_data.shape)
print(train_data.shape[0], 'train samples')
return train_data, train_label
2 均值和标准差
在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,新的数据由于对方差进行了归一化,这