机器学习
文章平均质量分 58
CtrlZ1
浮天水送无穷树,带雨云埋一半山。
展开
-
决策树算法分析
本文是根据西瓜书对决策树进行分析的。决策树的递归流程:函数:TreeGenerate(D,A):初始传入参数训练集为D(比如n个西瓜),传入参数属性为A(比如色泽、根蒂、纹理、触感。。。)①拿过来一个新生成的结点(第一次走这个过程的话就是根节点)②如果到达这个结点的训练集D中的样本全部属于某个类别标签C,那么就不用再分了,直接把这个结点设置为叶子结点,其类别标签为C,结束返回。...原创 2021-11-28 13:23:02 · 2232 阅读 · 0 评论 -
机器学习-GridSearchCV scoring 参数设置!
分类情况:‘accuracy’ metrics.accuracy_score ‘average_precision’ metrics.average_precision_score ‘f1’ metrics.f1_score ‘f1_micro’ metrics.f1_score ‘f1_macro’ metrics.f1_score ‘f1_...转载 2019-10-26 13:55:35 · 12979 阅读 · 1 评论 -
XGboost中的cv函数参数详解
def cv(params, dtrain, num_boost_round=10, nfold=3, stratified=False, folds=None, metrics=(), obj=None, feval=None, maximize=False, early_stopping_rounds=None, fpreproc=None, as_pandas=...原创 2019-10-26 09:05:33 · 16946 阅读 · 2 评论 -
为什么需要交叉验证
为什么需要cv?在训练集(train set)上训练得到的模型表现良好,但在测试集(test set)的预测结果不尽如人意,这就说明模型可能出现了过拟合(overfitting),bias低而variance高,在未知数据上的泛化能力差。一个改进方案是,在训练集的基础上进一步划分出新的训练集和验证集(validate set),在新训练集训练模型,在验证集测试模型,不断调整初始模型(超参数...原创 2019-10-24 20:07:35 · 1751 阅读 · 0 评论 -
LogisticRegressionCV里的一个常见警告
ConvergenceWarning: lbfgs failed to converge. Increase the number of iterations."of iterations.", ConvergenceWarning)在消除第一个警告之后,又来了一个新警告(收敛警告),说的是lbfgs 无法收敛,要求增加迭代次数。LogisticRegression里有一个max_iter(...原创 2019-10-24 19:58:41 · 4860 阅读 · 0 评论 -
梯度提升树GBDT(Gradient Boosting Decision Tree)调参小结
1.scikit-learn GBDT类库概述 在sacikit-learn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同,当然有些参数比如损失函数loss的可选择项并不相同。这些参数中,我们把重要参数分为两类,第一类是Boosting框架的重要参数,第二类是弱...原创 2019-10-24 09:30:54 · 1600 阅读 · 0 评论 -
sklearn中的XGBClassifier参数详解
前言1,Xgboost简介 Xgboost是Boosting算法的其中一种,Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器。因为Xgboost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是CART回归树模型。 Xgboost是在GBDT的基础上进行改进,使之更强大,适用于更大范围。 Xgboost一般和sk...转载 2019-10-23 20:29:33 · 42640 阅读 · 4 评论 -
sklearn进行数据缩放与标准化
缩放数据:import numpy as npnp.random.seed(10)x=np.matrix([np.random.randint(10,25)*1.0 for i in range(10)])x=x.T#MinMaxScaler缩放,移动数据使得所有特征都刚好位于0到1之间from sklearn.preprocessing import MinMaxScal...原创 2019-10-23 20:15:31 · 1545 阅读 · 0 评论 -
logistics回归之sklearn中的LogisticRegressionCV
一、Logistic回归的认知与应用场景Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是否患有某种病。二、LR分类器LR分类器,即Logistic Regression Classifier。在分类情形下,经过学习后的LR分类器...原创 2019-10-23 16:25:35 · 17042 阅读 · 2 评论 -
关于np.logspace()
np.logspace()可以用于构造等比数列。举个栗子,np.logspace(-2,2,10)构造的是一个从10的-2次方到10的2次方的等比数列,这个等比数列的长度是10个元素。输出:[1.00000000e-02 2.78255940e-02 7.74263683e-02 2.15443469e-01 5.99484250e-01 1.66810054e+00 4.6...原创 2019-10-23 14:25:59 · 13085 阅读 · 0 评论 -
随机森林 OOB理解
一个大小为N的数据集D.1.有一个问题是, 对于随机森林的每一棵CART树是怎么训练的, 如何划分训练集测试集?Bootstrap, 对数据集随机有放回抽样N次作为一棵CART树的训练集.根据概率论,可知数据集中有大约1/3的数据是没有被选取的(称为Out of bag),所以就是这没被选取的部分作为小树的测试集.2. 接下来的问题是, 怎么测试随机森林的性能, 测试集是什么?...转载 2019-10-21 20:09:45 · 2445 阅读 · 0 评论 -
np.concatenate函数
https://blog.csdn.net/IAlexanderI/article/details/87903339原创 2019-10-11 11:09:05 · 334 阅读 · 0 评论 -
Pandas之Series
这个东西相当烦人,之前一直没重视,后来他在我神经网络的学习中给我制造了很大的麻烦,所以这里特别记一下,引用的别人的博客,毕竟这也不是什么难的重点,只是一些基础知识的总结。前面用了5篇文章简单介绍了Python非常重要的库:Numpy,Numpy用来进行数值计算,是数据分析、机器学习的基础库。从本文开始为大家介绍Python另外一个非常重要的库:Pandas,Pandas是数据分析的常用工具,也...转载 2019-09-06 10:09:23 · 498 阅读 · 0 评论 -
用最通俗的语言讲机器学习之核支持向量机(SVM)
额,对于这个东西我不想扯得太复杂,我也不是什么计算机科学家,我学这个东西包括学机器学习的目的一直都很简单直接粗暴单纯,就是三个字:打建模!是的,我就是个俗人,所以写的这篇文章非俗人是看不懂的,如果有想看什么高深原理的就趁早自行绕道,免得扰了兴致,好,自我介绍完毕,下面开始自嗨环节。1.核支持向量机之通俗简介:核支持向量机,简称SVM,可以用于分类和回归,分类可以用SVC实现,...原创 2019-01-24 19:27:57 · 2099 阅读 · 1 评论 -
二分类Logistic回归的spss实现
第一步:找到适合二分类Logistic的数据集首先,我们进入机器学习数据集仓库寻找合适的数据集:http://archive.ics.uci.edu/ml/datasets.html?format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table...原创 2019-01-14 13:58:54 · 8530 阅读 · 1 评论 -
机器学习之PCA算法
一、定义 PCA,即主成分分析法,是一种旋转数据集的方法,所谓主成分就是最大方差的主要方向,一般来说,主成分的个数与原始特征相同。二、应用2.1降维从而达到数据可视化的目的: 很多数据集的维度很高,而我们如果想得到可视化的效果,必须降到三维及以下,所以,这就需要用到PCA算法。下面以乳腺癌数据集为例,进行分析:好,延续我们以前的习惯,把想说的话放到代码...原创 2019-01-18 15:31:35 · 1062 阅读 · 0 评论 -
sklearn朴素贝叶斯类库使用
在scikit-learn中,提供了3中朴素贝叶斯分类算法:GaussianNB(高斯朴素贝叶斯)、MultinomialNB(多项式朴素贝叶斯)、BernoulliNB(伯努利朴素贝叶斯)1、高斯朴素贝叶斯:sklearn.naive_bayes.GaussianNB(priors=None)①利用GaussianNB类建立简单模型 In [1]: import nump...转载 2018-11-18 16:21:56 · 338 阅读 · 0 评论 -
决策树的python代码实现
关于什么是决策树这种可以用百度解决的问题就不在这里贴出来了,这里只讲代码实现。from sklearn.datasets import load_irisiris=load_iris()# print(iris)# print(len(iris["data"]))#150个数据from sklearn.model_selection import train_test_split#把数据...原创 2018-11-18 10:57:44 · 1021 阅读 · 0 评论 -
make_blobs聚类数据生成器【转】
原文链接:https://blog.csdn.net/kevinelstri/article/details/52622960转载 2018-11-17 13:51:21 · 621 阅读 · 0 评论