机器学习
养鲲致富的大学生
这个作者很懒,什么都没留下…
展开
-
随机森林调参
调参判断: 学习曲线 score_l = [] i = i_range = range(1,201,10) for i in i_range: rfc = RandomForestClassifier(n_estimators=i+1 ,n_jobs = -1 ,random_state=90) score = cross_val_score(rfc,data.data,data.target,...转载 2019-03-31 20:20:43 · 222 阅读 · 0 评论 -
数据预处理与特征工程
注意哑变量的问题 #将文本型数据转化为数值型数据 以适应只能处理数字型数据的算法 但是不能直接转化 要考虑是名义变量、有序变量还是有距变量 分类转换成数字的时候,不能忽略了数字中自带的数学性质,所 以给算法传达了一些不准确的信息,而这会影响我们的建模。 类别OrdinalEncoder可以用来处理有序变量,但对于名义变量,我们只有使用哑变量的方式来处理,才能够尽量 向算法传达最准确的信息: 此...转载 2019-04-01 21:15:22 · 391 阅读 · 0 评论 -
PCA
** 面试高危问题 ** 在数据表或特征矩阵中,维度是特征的数量 1. 方差在PCA中可以认为是衡量特征信息量的尺度 方差越小,说明这个特征所包含的信息量越少,可以作为被降维的特征 可以对所有特征的信息量求和来判断降维前后整体数据信息量的变化 方差计算公式中 为什么样本方差的分母是n-1?为什么它又叫做无偏估计? https://blog.csdn.net/qq_39521554/ar...转载 2019-04-03 16:36:26 · 188 阅读 · 0 评论 -
逻辑回归
1.逻辑回归对于具有线性相关性的数据集效果最好 2.逻辑回归在金融领域应用最多,在其他领域出场有限 3.逻辑回归计算速度快 4.逻辑回归需要通过最小化损失函数求返回参数(极大似然法) 5.逻辑回归的过拟合问题需要通过在损失函数上加以正则化来解决 6.在L1正则化的过程中,对模型贡献不大(携带信息量小的参数),会更快的变为0,所以正则化可以看作是一个特征选择的过程。因此对于特征量很大,数据维度高的数...转载 2019-04-09 19:24:27 · 150 阅读 · 0 评论