机器学习
文章平均质量分 88
英俊强健
Anything that can't kill me makes me stronger
展开
-
记一次完整的机器学习竞赛经历
此次竞赛的题目为‘信用卡盗刷侦测’,主办方收集120天信用卡交易数据,0-90天作为训练集,90-120天作为测试集,去除label共22个可用特征。首先定义此题为二分类问题,且正负样本通常会极度不均衡。原创 2020-02-06 22:14:02 · 1032 阅读 · 0 评论 -
ML(1)-K nearest neighbor(KNN)
KNN分类算法KNN分类算法基本概念sciki-learn中的KNN手写KNN底层实现KNN总结KNN分类算法基本概念1.被分类的样本,通过看其周围邻近K个样本的类别,以投票方式决定此样本属于哪一类别。图中,k = 3,绿色的样本通过看周围3个样本的种类,将被归为蓝色。2.样本邻近距离计算方式: 对于a、b两个样本之间的距离,样本的特征数即构成样本坐标空间的维数。欧拉距离公式(每个样...原创 2019-08-17 01:17:55 · 385 阅读 · 0 评论 -
ML(2)- LinearRegression线性回归(正规方程)
LinearRegression正规方程线性回归基本概念单变量线性回归正规方程线性回归基本概念什么是线性?变量之间关系是一次函数,图像为一条直线。什么是回归?将变量之间的关系归结于一个值(直线)。线性回归预测,通过样本特征的线性组合来进行预测的函数,即用多个变量X来预测Y。特征之间是线性相关的。基本形式:f(x)=w1x1+w2x2+w3x3+...wdxd+bf(x) = ...原创 2019-08-29 11:42:02 · 698 阅读 · 0 评论 -
ML(3)- LinearRegression线性回归(梯度下降)
LinearRegression梯度下降梯度下降基本概念梯度下降算法手写梯度下降算法梯度下降基本概念是一种基于搜索的最优化方法。作用:最小化一个损失函数。线性回归损失函数:J(θ)=1m∑i=1m(yi^−yi)2J(\theta) = \frac{1}{m}\sum_{i=1}^m(\hat{y_{i}}-y_{i})^2J(θ)=m1∑i=1m(yi^−yi)2梯度下降...原创 2019-08-18 11:41:04 · 1179 阅读 · 0 评论 -
ML(4) - LinearRegression多项式回归(非线性)
多项式回归多项式回归基本概念Scikit-Learn中多项式回归关于PolynomialFeatures多项式回归基本概念对于线性回归,数据都是线性的,目标是寻找一条直线,尽可能的拟合样本。但实际任务中,数据往往是非线性,因此对线性回归算法进行一些转换改造,即多项式回归。多项式回归中,数据不太具有线性关系,因此应寻找一些非线性曲线去拟合。如下图,用一条二次曲线去拟合数据,效果更好。...原创 2019-08-23 14:25:48 · 1982 阅读 · 0 评论 -
ML(5) - LogisticRegression逻辑回归
逻辑回归LogisticRegression基本概念LogisticRegression模型公式LogisticRegression损失函数LogisticRegression梯度下降梯度下降公式推导手写LogisticRegressionScikit-Learn中的LogisticRegressionAPI:sklearn.linear_model.LogisticRegression多项式逻辑...原创 2019-08-31 14:11:46 · 633 阅读 · 0 评论 -
ML(6)-Evaluate模型评估方法
评估方法线性回归算法评估方式MSE/RMSE/MAE/R Squaredscikit-learn中的MSE/MAE/R Squared分类算法评估方式准确率(accuracy)混淆矩阵查准率(precision)查全率(recall)F1 Scorescikit-learn中的API画混淆矩阵查全率和查准率的平衡(PR曲线)ROC曲线及其面积AUC线性回归算法评估方式MSE/RMSE/...原创 2019-09-27 10:59:19 · 2888 阅读 · 0 评论 -
ML(7) - SVM支撑向量机
SVMSVM基本概念SVM数学模型Hard Margin SVMSoft Margin SVMScikit-Learn中的SVM(线性)API:sklearn.svm.LinearSVC多项式特征(解决非线性问题)SVM核模型SVM基本概念Support Vector Machine 作为主要的二分类算法,其直接将对模型泛化能力的考量融入了算法内部。目标:找到一条决策边界,这条决策边界要...原创 2019-09-27 10:59:43 · 544 阅读 · 0 评论 -
ML (8) - DesicionTree决策树
决策树决策树基本概念选取划分特征算法信息熵 (Information Entropy)信息增益 (Information Gain)增益率 (Gain Ratio)选取划分特征方式决策树基本概念通过一系列节点判断,得到最终的结果。例如鸢尾花数据集,仅取两个特征:决策树为非参数学习算法,天然的可解决多分类问题,不需使用OvR、OvO等策略。同样也可以解决回归问题。构建一个决策树,主...原创 2019-10-26 20:15:49 · 647 阅读 · 0 评论 -
ML(9) - EnsembleLearing集成学习
集成学习集成学习基本概念Bagging基本概念Boosting集成学习基本概念训练多个学习器,对同一样本预测,再用某种结合策略将各学习器结合起来,得出最终预测结果。集成学习的一般结构:同质集成(homogeneous):学习器使用的算法都是相同类型,例如全使用决策树算法。单个学习器称为 ‘基学习器’ 或 ‘基学习算法’。异质集成(heterogenous):学习器使用的算法类型不...原创 2019-10-26 20:16:14 · 526 阅读 · 0 评论 -
ML(10) - 模型训练技巧
模型技巧交叉验证网格搜索Pipeline偏差(Bias)和方差(Variance)模型正则化(Regularization)正则化基本概念正则化种类(scikit-learn)交叉验证网格搜索Pipeline偏差(Bias)和方差(Variance)模型误差 = 偏差(bias)+方差(variance)+不可避免误差不可避免的误差通常指客观存在且不可避免,最典型的例子即采集...原创 2020-02-06 22:12:20 · 631 阅读 · 0 评论 -
ML(12) - XGBoost / LightGBM 参数及用法详解
XGBoost / LightGBM / CatBoost 参数及用法详解原创 2020-02-06 22:13:03 · 3379 阅读 · 1 评论 -
ML-Data Processing数据预处理
数据预处理数据集分割sklearn.model_selection.train_test_split(*arrays, **options)手写train_test_split底层数据集分割sklearn.model_selection.train_test_split(*arrays, **options)参数*arrayslist/np.array/mat...原创 2020-09-09 22:58:17 · 384 阅读 · 0 评论 -
ML(6) -Evaluate模型评估方法
评估方法线性回顾算法评估指标MSE/RMSE/MAE/R Squaredscikit-learn中的MSE/MAE/$R^2$线性回顾算法评估指标MSE/RMSE/MAE/R Squared 均方误差MSE(mean squared error): mse=∑i=1m(y^i−yi)2mmse = \frac{\sum_{i=1}^m(\hat y_{i} - y_{i})...原创 2019-08-21 21:42:52 · 321 阅读 · 0 评论