![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python机器学习
文章平均质量分 63
可爱的红薯
这个作者很懒,什么都没留下…
展开
-
Python评分卡建模记录----使用到的各种函数(2)
(七) python的DataFrame排序问题1.按照一列排序frame.sort_index(axis = 0,ascending = True,by = 'a') #升序 frame.sort_index(axis = 0,ascending = False,by = 'a') #降序2. 按多列排序frame.sort_index(axis = 0,ascending = True...原创 2018-05-03 13:36:16 · 306 阅读 · 0 评论 -
gridsearchcv(网格搜索)&kfold validation(k折验证) in ML
转自:https://blog.csdn.net/qq_30490125/article/details/80387414网格搜索算法是一种通过遍历给定的参数组合来优化给定模型性能的方法。以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如 {‘m...转载 2018-08-03 19:11:34 · 596 阅读 · 0 评论 -
在sklearn.model_selection.GridSearchCV中使用自定义验证集进行模型调参
转自:http://blog.csdn.net/ismarvellous/article/details/78195010模型调参是一门玄学。为了获得模型最优参数,我们需要不断地尝试不同的参数,这一过程相当繁琐。好在python的sklearn包中为我们提供了GridSearchCV,大大方便了调参过程。本文使用实际例程简单介绍一GridSearchCV的使用,并展示如何使用自定义验证集进行模...转载 2018-08-03 19:36:45 · 2492 阅读 · 1 评论 -
python机器学习------决策树
一:理论部分二、应用(sklearn)调用sklearn中tree包进行模型训练,与其他方法类似,比较简单不赘述,之后补充决策树相关源码解析和调参应用原创 2018-08-05 14:48:44 · 204 阅读 · 0 评论 -
python机器学习----模型选择1(方法、指标)
一、模型选择的方法及相关指标1、损失函数通常有0-1损失,平方损失,绝对值损失和对数损失2、通常用测试集对模型评估,评估的方法有留出法,交叉验证法,留一法,自助法#留出法:直接将数据分为对立的三部分(也可以是两部分,此时训练集也是验证集),在训练集上训练模型,在验证集上选择模型,最后用测试集上的误差作为泛化误差的估计,数据集划分尽量保持数据分布一致,可以用分层采样来保持比例,通常采用多...原创 2018-08-05 11:52:13 · 3765 阅读 · 0 评论 -
python机器学习----模型选择2(绘制分类边界、验证曲线、学习曲线)
一、绘制分类边界 绘制模型结果分类边界,能够从可视化的角度,查看当前的特征分类效果如何import numpy as npimport pandas as pdfrom sklearn.datasets import load_irisimport matplotlib.pyplot as pltfrom sklearn.linear_model import LogisticR...原创 2018-08-05 14:16:29 · 5079 阅读 · 3 评论 -
python机器学习---模型选择3【欠拟合(高偏差)、过拟合(高方差)以及相关模型改善方法和建议】
一、当模型预测未知数据效果误差巨大时,解决方法?当我们用已经训练好的模型来预测未知数据发现巨大误差时,下一步要做的改进模型的方法通常有六种:1.获得更多的训练样本----解决高方差2.尝试减少特征的数量----解决高方差3.尝试获得更多的特征----解决高偏差4.尝试增加多项式特征----解决高偏差5.尝试减少归一化程度λ----解决高偏差6.尝试增加归一化程度λ---...原创 2018-08-05 18:26:09 · 2568 阅读 · 0 评论 -
only integer scalar arrays can be converted to a scalar index
在使用StratifiedShuffleSplit进行交叉验证时,出现上述错误。具体问题发现与解决过程如下:from sklearn.model_selection import StratifiedShuffleSplitsss=StratifiedShuffleSplit(n_splits=10,test_size=0.3,train_size=0.7, random_state=42)f...原创 2018-03-08 13:59:38 · 16620 阅读 · 1 评论 -
常用数据预处理技术(python实现)
一、特征规范化方法1. 均值移除( Mean removal)把每个特征的平均值移除,以保证特征均值为0(即标准化处理)。这样做可以消除特征彼此间的偏差(bias),变为均值为0方差为1的数据集。(x-mean)/标准差#均值移除from sklearn import preprocessingdata_standardized = preprocessing.scale(data)print...原创 2018-03-08 21:23:37 · 2668 阅读 · 0 评论 -
监督学习1——回归
监督学习:有标记非监督学习:无标记1.线性回归线性回归的目标是提取输入变量与输出变量的关联线性模型,这就要求实际输出与线性方程预测的输出的残差平方和(sum of squares of differences)最小化。这种方法被称为普通最小二乘法(Ordinary Least Squares, OLS)from sklearn.linear_model import LinearRegressi...原创 2018-03-08 22:14:54 · 472 阅读 · 0 评论 -
监督学习1——房价预测(案例)--待补充
以下将使用带AdaBoost算法的决策树回归器(decision tree regressor)来预测房价。1.关于adaBoost简述(其他笔记中将详细讲述)决策树是一个树状模型,每个节点都做出一个决策,从而影响最终结果。叶子节点表示输出数值,分支表示根据输入特征做出的中间决策。 AdaBoost算法是指自适应增强(adaptive boosting)算法,利用其他系统增强模型准确性的技术。将不...原创 2018-03-09 06:16:17 · 713 阅读 · 0 评论 -
机器学习类别不平衡问题的解决方法——待完善
机器学习类别不平衡问题的解决方法本文有参考1.《机器学习》 周志华2. https://yq.aliyun.com/articles/2260163.http://blog.csdn.net/heyongluoyao8/article/details/49408131原创 2018-03-09 08:17:03 · 443 阅读 · 0 评论 -
python 评分卡建模记录---使用到的各种函数(1)
用python评分卡建模过程中使用到的numpy 和pandas中的方法(一)python选取特定列——pandas的iloc和loc以及icol使用(列切片及行切片)df是一个dataframe,列名为A B C D具体值如下:A B C D0 ss 小红 81 aa 小明 d4 f f6 ak 小...原创 2018-05-03 13:35:23 · 2322 阅读 · 1 评论