我建立了一个监督模型来分类医学文本数据(我的输出预测疾病的正面或负面发生)。数据非常不平衡(130例阳性病例与1600例阴性病例相比,这是可以理解的,因为这种疾病很罕见)。我首先清理了数据(删除了不必要的单词,词形还原等),然后应用了POS。然后我将TfidfVectorizer和TfidfTransformer应用于此清理数据。对于分类,我尝试了SVM和随机森林,但即使用GridSearchCV调整参数后我也只获得了56%的准确率和58%的正数据回忆(我也使class_weight ='balanced')。有没有人建议如何提高这种低精度和召回?非常感谢你。
这是我当前的Pipeline(显然我在运行它时只使用其中一个分类器,但我只显示了它们的参数)。pipeline = Pipeline([
('vectors', TfidfVectorizer(ngram_range = (2,3),norm = 'l1', token_pattern = r"\w+\b\|\w+" ,min_df = 2, max_features = 1000).fit(data['final'])),
('classifier', RandomForestClassifier(n_estimators = 51, min_samples_split = 8, min_samples_leaf = 2, max_depth = 14, class_weight= 'balanced')),
('classifier', SVC(C = 1000, gamma = 1, class_weight = 'balanced', kernel='linear')),
])