机器学习
RinnyLu
这个作者很懒,什么都没留下…
展开
-
分类模型评估方法
上图矩阵中1是正例,0是只负例对于二分类问题,可以将真实类别和分类器预测类别组合为:真正例(true positive TP):真实类别为正例,预测类别为正例;假正例(false positive FP): 真实类别为负例,预测类别为正例;假负例(false negative FN):真实类别为正例,预测类别为负例;真负例(true negative TN):真实类别为负例,预测类别为负例;分类模...转载 2018-07-04 10:04:05 · 7212 阅读 · 0 评论 -
随机森林筛选变量(Python实现)
#文章转自每日一Python公众号当数据集的特征过多时,容易产生过拟合,可以用随机森林来在训练之后可以产生一个各个特征重要性的数据集,利用这个数据集,确定一个阈值,选出来对模型训练帮助最大的一些特征,...转载 2018-07-04 10:53:10 · 28332 阅读 · 8 评论 -
机器学习-数据预处理(Python实现)
#转自每日一Python微信公众号机器学习在训练模型前,需要将特征进行预处理使其规范化,易于,本文主要讲几种常见的数据预处理方式;标准化(z-Score)公式为(X-mean)/std,将特征转化为均值为0,方差为1的数据;可以用`sklearn.prepocessing.scale()``函数和sklearn.proprocessing.StandardScaler()类实现,使用Standar...转载 2018-07-04 11:00:59 · 1816 阅读 · 1 评论 -
关联分析之发现频繁项集--使用Apriori算法(1)
转自微信公众号--每日一Python 从大规模数据集中寻找物品间的隐含关系被称为关联分析,最有名的案例应该是啤酒和尿布了。这些关系可以用两种方式来量化,一个是使用频繁项集,给出经常在一起出现的元素项;一个是关联规则,每条关联规则意味着元素项之间的“如果……那么”(A-->B)的关系;要先找到频繁项集然后才能获得关联规则。本文主要是先讲找到频繁项集(本文中的代码使用的是Pyth...转载 2018-07-27 14:34:45 · 5342 阅读 · 0 评论 -
机器学习--特征选择(Python代码实现)
转自 每日一Python 微信公众号特征选择就是从原始特征中选取一些最有效的特征来降低维度,,提高模型泛化能力减低过拟合的过程,主要目的是剔除掉无关特征和冗余特征,选出最优特征子集;常见的特征选择方法可以分为3类:过滤式(filter)、包裹式(wrapper)、嵌入式(embedding)。1.过滤式filter:通过方差选择法、相关系数法、卡方检验法、互信息法来对特征进行评分,设定...转载 2018-08-31 10:28:25 · 24386 阅读 · 1 评论