机器学习
red_west
这个作者很懒,什么都没留下…
展开
-
ROC
Setting levels: control = 0, case = 1Setting direction: controls < casesdirection:根据两组数据中位数大小确定;“>”: control组中位数值大于cases组;“<”:control组中位数值小于或等于cases组...原创 2020-04-08 19:02:33 · 5302 阅读 · 1 评论 -
缺失值插补方法
原创 2020-04-08 16:34:13 · 1073 阅读 · 0 评论 -
多重共线性
1.多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施,如果VIF值大于10说明共线性很严重,这种情况需要处理,如果VIF值在5以下不需要处理,如果VIF介于5~10之间视情况而定。2.如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。...原创 2020-04-02 16:16:45 · 1503 阅读 · 0 评论 -
glm
广义线性模型:包括lasso, ridge,elastic net 。glmnet 只能接受数值矩阵作为模型输入,如果自变量中有离散变量的话,#需要把这一列离散变量转化为几列只含有 0 和 1 的向量, 这个过程叫做 One Hot Encoding。...原创 2020-03-31 09:05:02 · 239 阅读 · 0 评论 -
logistic regression
> mydata <- read.csv("binary.csv")> head(mydata) admit gre gpa rank1 0 380 3.61 32 1 660 3.67 33 1 800 4.00 14 1 640 3.19 45 0 520 2.93 46 1 ...原创 2020-03-23 12:39:47 · 434 阅读 · 0 评论 -
logit regression
> CarData = read.table('car.data',sep=',',col.names=c('buying','maintenance','doors','persons','lug_boot','safety','rating'))> summary(CarData) buying maintenance doors persons ...原创 2020-03-20 13:31:42 · 146 阅读 · 0 评论 -
随机森林
在这里,我调整了要随ntree增长的树的数量(标准值为500)。变量mtry指定将选择多少个随机特征来生长一棵树。在这里,我选择mtry = 3,这意味着每次树木生长时,将随机选择集合{Sex,Pclass,Parch,SibSp,Embarked}中的三个特征。如果输入:...原创 2020-03-20 11:11:20 · 215 阅读 · 0 评论 -
特征缩放的适用范围
参考:https://medium.com/greyatom/why-how-and-when-to-scale-your-features-4b30ab09db5e具有欧几里德距离度量的k个近邻对幅度敏感,因此应按比例缩放所有要素以均等地加权。 在执行主成分分析(PCA)时,缩放至关重要。PCA尝试获取具有最大方差的特征,而对于高强度特征,方差很高。这会使PCA偏向高强度特征。 我...原创 2020-03-17 16:25:52 · 273 阅读 · 0 评论