在上一篇文章中讲述了如何 基于机器学习构建文本分类模型 ,然而当我们做文本分类的项目时需要改进算法以达到目标的准确率,通常会从分类算法、特征工程调参和数据清洗的角度去完善:
1. 通过 随机网格搜索法 或 穷举网格搜索法 获得分类算法的最优参数进行训练,此处以LR算法和随机网格搜索法为例:
def ChoosePara():
pipe_rf = LogisticRegression()
param_grid = {'C': [1,10,100,1e3],
'solver':['newton-cg','lbfgs', 'sag'],
'multi_class':['ovr','multinomial'],
'max_iter':[100,600,1000]}
gs = RandomizedSearchCV(estimator=pipe_rf, param_distributions=param_grid, scoring='accuracy', cv=10, n_jobs=1) #estimator:选择的机器学习算法, n_jobs:并行数,cv:交叉验证参数,scoring:模型评价标准
gs = gs.fit(vec.transform(x_train), y_train)
print('Best score:', gs.best_sc