自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 问答 (2)
  • 收藏
  • 关注

原创 机器学习-特征工程流程

大致的工作流程1.特征缩放/规范化/标准化,注意特征与目标变量、训练集与测试集均要做,如Standardlizer。训练集与测试集使用相同的Standardlizer对象,目标变量最后要做invert(这个问题我遇到过,就是standarlize后的target值也在-1到1之间,这不是实际值,实际值要记得invert成原数据形式)。2.画相关性图谱,消除多重线性相关多重共线性(...

2019-06-13 20:20:00 477

转载 scikit-learn中PCA的使用方法

原博文:@blog:http://blog.csdn.net/u012162613/article/details/42192293在前一篇文章主成分分析(PCA)中,我基于python和numpy实现了PCA算法,主要是为了加深对算法的理解,算法的实现很粗糙,实际应用中我们一般调用成熟的包,本文就结束scikit-learn中PCA使用的方法和需要注意的细节,参考:sklearn....

2019-06-13 19:51:56 312

原创 kmeans和knn相同点和不同点:

kmeans和knn相同点和不同点:一、K最近邻(kNN,k-NearestNeighbor)分类算法,找到最近的k个邻居(样本),在前k个样本中选择频率最高的类别作为预测类别。步骤:1)算距离:给定测试对象,计算它与训练集中的每个对象的距离 2)找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻 3)做分类:根据这k个近邻归属的主要类别,来对测试对象分类二、K-Means算法...

2019-06-13 18:00:08 6985

原创 K-Means算法-聚类

概述:1.聚类:聚类是一种无监督的学习,它将相似的对象归到同一簇中。聚类的方法几乎可以应用所有对象,簇内的对象越相似,聚类的效果就越好。聚类和分类最大的不同在于,分类的目标是事先已知的,而聚类则不一样,聚类事先不知道目标变量是什么,类别没有像分类那样被预先定义出来,所以,聚类有时也叫无监督学习。聚类分析试图将相似的对象归入同一簇,将不相似的对象归为不同簇,那么,显然需要一种合适的相似度计算方法...

2019-06-13 17:57:02 522

原创 KNN-K最近邻(k-NearestNeighbor)分类算法

K最近邻(kNN,k-NearestNeighbor)分类算法,见名思意:找到最近的k个邻居(样本),在前k个样本中选择频率最高的类别作为预测类别。解释:1)算距离:给定测试对象,计算它与训练集中的每个对象的距离 2)找邻居:圈定距离最近的k个训练对象,作为测试对象的近邻 3)做分类:根据这k个近邻归属的主要类别,来对测试对象分类可借鉴的优点:1)由于KNN方法主要靠周围有限...

2019-06-13 17:51:44 654

原创 模型评价-精确率 召回率 F1值 sklearn

sklearn模型评价参数API:https://blog.csdn.net/cymy001/article/details/794252331、在使用Sklearn进行机器学习算法预测测试数据时,常用到classification_report函数来进行测试的准确率的计算输出分类报告:sklearn.metrics.classification_report(y_true, y_pred, la...

2018-05-29 20:37:10 1585

原创 机器学习分类器性能指标ROC曲线、AUC值

一、ROC曲线:什么是ROC曲线:受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。...

2018-04-07 00:34:40 482

原创 learning_list down(review)

links:1.xgboost安装,实现回归,分类demo。deadline:周日晚上,代码+结果图片发出来。学习GitHub上代码:https://github.com/wffzxyl/MachineLearning2 留意这个博客,学习相关知识:http://www.cnblogs.com/pinard/category/894692.html1 写决策树的例子:http://scikit-l...

2018-04-06 17:13:18 365

原创 学习曲线learning curve和AUC值

引入1. 什么是过拟合?相当于泛化性差的概念,见知乎https://www.zhihu.com/question/322462562.可能是什么导致了过拟合?(1)建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则;(2)样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;(3)假设的模型无法合理存在,或者说是假设成立的条...

2018-04-06 17:09:10 2164

原创 gbdt调参

参考:刘建平的文章,结合gridsearch试着调参找出最优模型。http://www.cnblogs.com/pinard/category/894692.html评估参数:虽然 MSE 常用于机器学习,但它既不是唯一实用的损失函数,也不是适用于所有情形的最佳损失函数。MSE: Mean Squared Error 均方误差是指参数估计值与参数真值之差平方的期望值; MSE可以评价数据的变化程度...

2018-04-06 17:01:19 670

原创 欠拟合和过拟合通用处理方法-基础

欠拟合:     在训练数据和未知数据上表现都很差,高偏差解决方法:1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。除上面的特征之外,“上下文特征”、“平台特征”等等,都可以作为特征添加的首选项。2)添加多项式特征,这...

2018-04-06 16:58:00 394

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除