Python分析建模,日常问题整理(一)
2018.07.23~2018.07.09
当数据类型是categories时,应该增加的是一类(一个水平),
df['b'] = df['b'].cat.add_categories(['k'])
## 对b列增加类为K的水平。
Python 3.6不显示中文,需要增加以下几行代码
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['font.family']='sans-serif'
#解决负号'-'显示为方块的问题
matplotlib.rcParams['axes.unicode_minus'] = False
xgboost是黑箱,没有可解释的具体coef,只有变量重要性可提供参考。不能转化变量的分数,不能用于评分卡模型。
sklearn.LogisticRegression 与 import statsmodels.api as sm的算法有不同(待补充)
sklearn.LogistcRegression 的正则化项C,是权重的L1或者L2范数乘以一个λ,用来控制损失函数和正则化项的比重。防止训练出来的模型过分的依赖某一个特征,当最小化损失函数的时候,某一维度很大,拟合出来的函数值与真实的值之间的差距很小,通过正则化可以使整体的cost变大,避免过分依赖某一维度的结果。
sklogit = Lo