不确定这是否是这个问题的好地方,但我被告知CrossValidated不是.所以,所有这些问题都涉及sklearn,但如果你对逻辑回归有一般的见解,我也很乐意听到它们.
1)数据是否必须标准化(平均0,stdev 1)?
2)在sklearn中,如何指定我想要的正则化类型(L1与L2)?请注意,这与惩罚不同;惩罚是指分类错误,而不是对系数的修正.
3)我如何使用变量选择?即,类似于用于线性回归的套索.
4)使用正则化时,如何优化C,正则化强度?有内置的东西,还是我自己要照顾好这个?
可能一个例子是最有帮助的,但我很欣赏任何这些问题的见解.
非常感谢你提前!
解决方法:
1)对于逻辑回归,没有.您没有计算实例之间的距离.
2)您可以指定penalty =’l1’或penalty =’l2’参数.请参阅LogisticRegression page. L2惩罚是默认的.
3)scikit-learn提供了各种明确的特征选择技术,例如,使用SelectKBest具有chi2排名功能.
4)您需要为最佳参数执行Grid Search.
有关所有这些问题的更多详细信息,我建议您浏览一些Examples,例如this one和this one.
标签:python,classification,scikit-learn,logistic-regression