![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
Xhfei1224
研究方向:数据挖掘/机器学习/深度学习(博士在读)
展开
-
【机器学习】最小二乘法的多元线性回归
一、方法介绍“最小二乘法”一句话解释:一种数学优化方法,通过最小化误差的平方和来寻找合适的数据拟合函数。线性模型的最小二乘可以有很多方法来实现,比如直接使用矩阵运算求解析解,sklearn包(参考:用scikit-learn和pandas学习线性回归、用scikit-learn求解多元线性回归问题),或scipy里的leastsq function(参考:How to use leastsq ...原创 2019-09-04 15:09:12 · 7315 阅读 · 1 评论 -
【机器学习】XGBoost参数说明
- booster [default=gbtree]有两中模型可以选择gbtree和gblinear。gbtree使用基于树的模型进行提升计算,gblinear使用线性模型进行提升计算。缺省值为gbtree。- silent [default=0]取0时表示打印出运行时信息,取1时表示以缄默方式运行,不打印运行时信息。缺省值为0。- nthreadXGBoost运行时的线程数。缺省值是当...原创 2019-06-05 21:19:44 · 2289 阅读 · 0 评论 -
【机器学习】svm.SVC参数详解
sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_s...原创 2019-06-20 21:48:17 · 64097 阅读 · 6 评论 -
【机器学习】AUC (ROC曲线下方的面积大小)及python代码示例
AUC(Area Under Curve) 被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。ROC曲线的横坐标是伪阳性率(也叫假正类率,False Positive Rate),纵坐标是真阳性率(真正类率,True Positive Rate),相应的还有真阴性率(真负类率,True N...原创 2019-07-12 11:31:29 · 5992 阅读 · 0 评论 -
【机器学习】数据预处理——标准化/归一化方法(scaler)
这篇主要是关于机器学习中的数据预处理的scaler变化。工作中遇到的问题是:流量预测问题,拿到的数据差距非常大,凌晨的通话流量很少几乎为0;但是在早上8点以后数据就会激增最高常常是500以上的情况。通常,在Data Science中,预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明,主要把各个标准化方法的应用场景以及优缺点总结概括,以来充当笔记。...原创 2019-07-06 15:25:38 · 6351 阅读 · 0 评论 -
【软件安装】在Windows上安装XGBoost最简单方法
XGBoost广泛用于Kaggle比赛。对于那些喜欢使用Windows的人来说,安装xgboost可能是一个艰苦的过程。因此我写了这张便条来节省你的时间。1.构建XGBoost公平地说,在Windows上安装XGBoost 的官方指南没有错。但是,我仍然想在这里强调几点。git clone --recursive https://github.com/dmlc/xgboost cd xg...转载 2019-07-14 14:15:55 · 318 阅读 · 0 评论 -
【Sklearn】数据划分方法
原理介绍1. K折交叉验证:KFold,GroupKFold,StratifiedKFold2. 留一法:LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,LeavePOut3.随机划分法:ShuffleSplit,GroupShuffleSplit,StratifiedShuffleSplit代码实现流程:实例化分类器 -> ...转载 2019-06-28 18:38:55 · 1249 阅读 · 0 评论 -
【机器学习】KFold,StratifiedKFold k折交叉切分区别
StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。例子:import numpy as np from sklearn.model_selection import KFold,StratifiedKFoldX=np.array([ [1,2,3,4], [11,12,13,14], [21...原创 2019-06-28 17:24:45 · 904 阅读 · 0 评论 -
【Sklearn】sklearn.metrics中的评估方法-accuracy_score,recall_score,roc_curve,roc_auc_score,confusion_matrix
目录accuracy_scorerecall_scoreroc_curveroc_auc_scoreconfusion_matrix1. accuracy_score分类准确率分数是指所有分类正确的百分比。分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布,并且它也不能告诉你分类器犯错的类型。形式:sklearn.metrics.accuracy...原创 2019-06-03 20:53:23 · 23780 阅读 · 0 评论 -
【机器学习】几种交叉验证(cross validation)方式的比较(含代码)
几种交叉验证(cross validation)方式的比较模型评价的目的:通过模型评价,我们知道当前训练模型的好坏,泛化能力如何?从而知道是否可以应用在解决问题上,如果不行,那又是哪里出了问题?1.train_test_split在分类问题中,我们通常通过对训练集进行train_test_split,划分成train 和test 两部分,其中train用来训练模型,test用来评估模型,模型...原创 2019-05-16 10:22:55 · 4885 阅读 · 0 评论 -
【机器学习】K近邻(KNN)回归预测数据-代码
import matplotlib.pyplot as pltimport numpy as np# 生成训练样本n_dots = 400#训练样本点越多,预测的越准确X_train= 5 * np.random.rand(n_dots, 1)#随机40个样本,1列的列向量y_train = np.cos(X_train).ravel()#y=cos(X),np.ravel()是用来将多...原创 2019-05-18 16:26:19 · 3398 阅读 · 0 评论