![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 79
login_sonata
这个作者很懒,什么都没留下…
展开
-
使用sklearn做特征工程
转载自:http://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 F转载 2017-01-02 17:05:04 · 532 阅读 · 0 评论 -
如何处理分类中的训练数据集不均衡问题
本文参考自:http://blog.csdn.net/heyongluoyao8/article/details/49408131,有删改。什么是数据不均衡?在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子:①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分原创 2017-01-09 16:45:09 · 32390 阅读 · 0 评论 -
机器学习分类器模型评价指标
分类器评价指标主要有: 1,Accuracy 2,Precision 3,Recall 4,F1 score 5,ROC 曲线 6,AUC 7,PR 曲线混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。真正(True Positive , TP):被模型预测为正的正样本。假正(Fal原创 2017-01-09 14:28:15 · 14213 阅读 · 1 评论 -
随机森林和GBDT的区别
一,随机森林随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。假设样本总数为n,每个样本的特征数为a,则随机森林的生成过程如下:从原始样本中采用有放回抽样的方法选取n个样本; 对n个样本选取a个特征中的随机k个,用建立决策树的方法获得最佳分割点;重复m次,获得m个决策树; 对输入样例进行预测时,每个子树都产生一个结果,采用多数投原创 2017-06-30 00:20:54 · 37689 阅读 · 3 评论