- 博客(5)
- 收藏
- 关注
原创 连续属性离散化与sklearn.preprocessing.KBinsDiscretizer
1、连续属性离散化离散化 (Discretization) (有些时候叫 量化(quantization) 或 分箱(binning)) ,是将连续特征划分为离散特征值的方法。 离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的数据集。2、K-bins 离散化(分箱)KBinsDiscretizer 类使用k个等宽的bins把特征离散化:默认情况下...
2019-07-29 12:48:52 11209
原创 sklearn之Model selection and evaluation学习使用
这部分可以结合机器学习之模型评估与选择来阅读,sklearn库的中文地址和英文地址。总共可以分为5部分:交叉验证来评估学习器性能;调整学习器的超参数;模型评估量化预测的质量。模型持久化。验证曲线,绘制分数来评估模型。1、交叉验证来评估学习器的表现下面是典型的交叉验证工作图,最优超参通过第2节的网格搜索得到,将最优超参带入学习模型中,数据集分为训练和测试集,利用训练集再次进行模型训练,然后将训...
2019-07-28 18:30:46 844
原创 机器学习之模型评估与选择
一、模型评估与选择分为五部分:1、经验误差及过拟合;2、评估方法‘;3、性能度量’;4、比较检验;5、偏差与方差。1、经验误差与过拟合错误率(error rate):分类错误的样本数占总样本数。精度(accuracy):1-错误率。误差(error):学习器的实际预测输出和样本的真实输出的差异。在训练集上的是训练误差,在新样本上的是泛化误差。过拟合(overfitting):训练误差小...
2019-07-27 23:34:27 829
原创 逻辑回归以及sklearn.linear_model.LogisticRegression的使用
一、逻辑回归二、sklearn.linear_model.LogisticRegression的使用1、sklearn库提供了逻辑回归模型,连接地址2、class sklearn.linear_model.LogisticRegression参数说明@@@class sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=Fal...
2019-07-27 14:03:00 4370
原创 入侵检测之KDDCUP99数据集分析
背景知识KDD是数据挖掘与知识发现(Data Mining and Knowledge Discovery)的简称,KDD CUP是由ACM(Association for Computing Machiner)的 SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining)组织的年度竞赛。”KDD CUP 99 d...
2019-07-24 14:26:53 18326 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人