蔓越莓小饼干-CSDN博客

原创机器学习-特征工程流程

大致的工作流程1.特征缩放/规范化/标准化，注意特征与目标变量、训练集与测试集均要做，如Standardlizer。训练集与测试集使用相同的Standardlizer对象，目标变量最后要做invert（这个问题我遇到过，就是standarlize后的target值也在-1到1之间，这不是实际值，实际值要记得invert成原数据形式）。2.画相关性图谱，消除多重线性相关多重共线性（...

2019-06-13 20:20:00 580

转载 scikit-learn中PCA的使用方法

原博文：@blog：http://blog.csdn.net/u012162613/article/details/42192293在前一篇文章主成分分析(PCA)中，我基于python和numpy实现了PCA算法，主要是为了加深对算法的理解，算法的实现很粗糙，实际应用中我们一般调用成熟的包，本文就结束scikit-learn中PCA使用的方法和需要注意的细节，参考：sklearn....

2019-06-13 19:51:56 411

原创 kmeans和knn相同点和不同点:

kmeans和knn相同点和不同点:一、K最近邻(kNN，k-NearestNeighbor)分类算法，找到最近的k个邻居（样本），在前k个样本中选择频率最高的类别作为预测类别。步骤：1）算距离：给定测试对象，计算它与训练集中的每个对象的距离 2）找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻 3）做分类：根据这k个近邻归属的主要类别，来对测试对象分类二、K-Means算法...

2019-06-13 18:00:08 7283

概述：1.聚类：聚类是一种无监督的学习，它将相似的对象归到同一簇中。聚类的方法几乎可以应用所有对象，簇内的对象越相似，聚类的效果就越好。聚类和分类最大的不同在于，分类的目标是事先已知的，而聚类则不一样，聚类事先不知道目标变量是什么，类别没有像分类那样被预先定义出来，所以，聚类有时也叫无监督学习。聚类分析试图将相似的对象归入同一簇，将不相似的对象归为不同簇，那么，显然需要一种合适的相似度计算方法...

2019-06-13 17:57:02 604

原创 KNN-K最近邻（k-NearestNeighbor）分类算法

K最近邻(kNN，k-NearestNeighbor)分类算法，见名思意：找到最近的k个邻居（样本），在前k个样本中选择频率最高的类别作为预测类别。解释：1）算距离：给定测试对象，计算它与训练集中的每个对象的距离 2）找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻 3）做分类：根据这k个近邻归属的主要类别，来对测试对象分类可借鉴的优点：1）由于KNN方法主要靠周围有限...

2019-06-13 17:51:44 739

原创模型评价-精确率召回率 F1值 sklearn

sklearn模型评价参数API：https://blog.csdn.net/cymy001/article/details/794252331、在使用Sklearn进行机器学习算法预测测试数据时，常用到classification_report函数来进行测试的准确率的计算输出分类报告：sklearn.metrics.classification_report(y_true, y_pred, la...

2018-05-29 20:37:10 1765

原创机器学习分类器性能指标ROC曲线、AUC值

一、ROC曲线：什么是ROC曲线：受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、（1-特异性）为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。...

2018-04-07 00:34:40 577

原创 learning_list down（review）

links：1.xgboost安装，实现回归，分类demo。deadline：周日晚上，代码+结果图片发出来。学习GitHub上代码:https://github.com/wffzxyl/MachineLearning2 留意这个博客，学习相关知识：http://www.cnblogs.com/pinard/category/894692.html1 写决策树的例子：http://scikit-l...

2018-04-06 17:13:18 418

原创学习曲线learning curve和AUC值

引入1. 什么是过拟合？相当于泛化性差的概念，见知乎https://www.zhihu.com/question/322462562.可能是什么导致了过拟合？（1）建模样本选取有误，如样本数量太少，选样方法错误，样本标签错误等，导致选取的样本数据不足以代表预定的分类规则；（2）样本噪音干扰过大，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则；（3）假设的模型无法合理存在，或者说是假设成立的条...

2018-04-06 17:09:10 2346

原创 gbdt调参

参考：刘建平的文章，结合gridsearch试着调参找出最优模型。http://www.cnblogs.com/pinard/category/894692.html评估参数：虽然 MSE 常用于机器学习，但它既不是唯一实用的损失函数，也不是适用于所有情形的最佳损失函数。MSE: Mean Squared Error 均方误差是指参数估计值与参数真值之差平方的期望值; MSE可以评价数据的变化程度...

2018-04-06 17:01:19 851

原创欠拟合和过拟合通用处理方法-基础

欠拟合: 在训练数据和未知数据上表现都很差，高偏差解决方法：1）添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。2）添加多项式特征，这...

2018-04-06 16:58:00 461

cranberrycookie的博客