ML
文章平均质量分 90
尝试推导一些机器学习的公式
enginelong
无人驾驶,智能的未来
展开
-
聚类方法简单总结
聚类概述聚类(cluster)与分类(class)问题不同,聚类属于无监督学习模型,而分类属于有监督学习模型。聚类使用某种算法将样本分为N个群落,群落内部相似度较高,群落之间相似度较低。通常采用‘距离’来度量样本间的相似度,距离越小,相似度越高;距离越大,相似度越低。相似度度量方式欧氏距离∣x1−x2∣=(x1−x2)2|x_1 - x_2| = \sqrt{(x_1 - x_2)^2}∣x1−x2∣=(x1−x2)2曼哈顿距离二维平面两点a(x1,y1)与b(x2,y2)a(x原创 2021-02-08 15:33:20 · 2043 阅读 · 0 评论 -
机器学习之模型评估与优化
模型评估性能度量错误率与精度错误率(error rate):分类错误的样本占样本总数的比例;精度(accuracy):分类正确的样本占样本总数的比例;精度 = 1 - 错误率查准率、召回率、F1得分错误率和精度虽然常用,但是并不能满足所有的任务需求。比如:在一次疾病检测中,我们关注以下问题:1) 检测出感染的个体中有多少是真正的病毒携带者?2)所有真正病毒携带者中有多少被检测出来?此时错误率/精度将无法反映出以上信息。实际上,类似的问题中,‘查准率’(precision)与‘召回率’原创 2021-02-05 21:36:15 · 451 阅读 · 0 评论 -
神奇的SVM
SVM基本概念支持向量机(Support Vector Machines)是一种二分类模型,在很多领域被广泛使用,致力于解决数据分类问题。SVM的目标是寻找一个超平面对样本进行分割,分割原则是间隔最大化(即数据集的边缘到分界线的距离d最大,如下图)。最终,将问题转化为一个凸二次规划问题进行求解。SVM通常用于解决二分类问题,不过对于多分类问题,可以将多分类问题分解为多个二元分类问题,然后进行分类。何谓支持向量?如图,支持向量就是图中虚线穿过的边缘点,理论上SVM的效果只与这些点有关系。同时,支持向量机就原创 2021-02-02 00:03:15 · 380 阅读 · 0 评论 -
逻辑回归浅析
逻辑回归概述逻辑回归(Logistic Regression) 实质上是分类模型,常用于二分类。逻辑回归因为简单,可并行化,可解释强而受到广泛关注。二分类(逻辑分类)是常见的分类方法,用于将一批样本或数据划分到两个类别。比如将成绩划分为及格与不及格两个类别:姓名成绩分类ai590engine611enginelong1001逻辑函数逻辑回归是一种广义的线性回归,其原理是利用线性模型根据输入计算输出(线性模型输出为连续值),然后在逻辑函数作用下,将连续原创 2021-01-31 01:21:06 · 146 阅读 · 0 评论 -
使用决策树相关算法实现波士顿房价预测
决策树浅析决策树概述决策树是一种经典的机器学习方法,其核心思想是相同(相似)的输入产生相同(相似)的输出。通过树状结果进行决策,其目的是通过对样本不同属性的判断决策,将具有相同属性的样本划分到下一个叶子节点,从而实现分类或者回归。构建决策树根据西瓜书的知识,构建决策树的算法如下:由此可见决策树的构建是一个递归问题,核心在于:如何选择最优的特征,使得对数据集的划分效果最好。决定何时停止分裂节点。选择决策特征信息熵信息熵(information entropy)是度量样本集合纯度的常原创 2021-01-29 11:32:08 · 4271 阅读 · 3 评论 -
Lasso回归与岭回归
正则化正则化是指在损失函数后面添加一个范数,以此防止模型过拟合的方式。范数定义:∣∣x∣∣p=(∑i=1n∣x∣p)1p||x||_p = (\sum_{i=1}^{n}|x|^p)^\frac{1}{p}∣∣x∣∣p=(i=1∑n∣x∣p)p11)p = 1时,即L1范数:∣∣x∣∣p=(∑i=1n∣x∣)||x||_p = (\sum_{i=1}^{n}|x|)∣∣x∣∣p=(i=1∑n∣x∣)2)p = 2时,即L2范数:∣∣x∣∣p=(∑i=1n∣x∣2)12||原创 2021-01-27 23:15:35 · 454 阅读 · 1 评论 -
多项式回归
多项式回归线性回归适用于数据成线性分布的回归问题,如果样本是非线性分布,线性回归就不再使用,转而可以采用非线性模型进行回归,比如多项式回归多项式回归模型定义与线性模型,多项式模型引入了高次项:y=w0+w1x+w2x2+w3x3+...+wnxny = w_0 + w_1x + w_2x^2 + w_3x^3 + ... + w_nx^ny=w0+w1x+w2x2+w3x3+...+wnxn即:y=∑i=1nwixiy = \sum_{i=1}^{n}w_ix^iy=i=1∑原创 2021-01-27 00:13:23 · 316 阅读 · 0 评论 -
R2系数浅析
在统计学中,R2系数又称决定系数,反映因变量的全部变异能通过回归关系被自变量解释的比例。比如:R2_score=0.8,则表示回归关系可以解释因变量80%的变异,即如果控制自变量不变,则因变量的变异程度会减少80%。对变量进行线性回归分析时,采用最小二乘法进行参数估计时,R2_score越接近于1,回归拟合效果越好,一般认为超过80%的模型拟合度比较高。R2系数计算用yiy_iyi表示真实的观测值,yˉ\bar yyˉ表示真实观测值的平均值,y^i\hat y_iy^i表示预测值回归平方和原创 2021-01-26 23:26:10 · 15134 阅读 · 1 评论 -
线性回归
线性模型定义设给定一组属性x,x=(x1,x2,...,xn)x=(x_1,x_2,...,x_n)x=(x1,x2,...,xn),则线性模型一般表达式:y=w1x1+w2x2+w3x3+wnxn+by = w_1x_1 + w_2x_2+w_3x_3 + w_nx_n + by=w1x1+w2x2+w3x3+wnxn+b向量形式:y=wTx+by = w^Tx + by=wTx+b其中:w=(w1,w2,w3,...,wn)T,x=(x1,x2,x3,...,x4)w=(原创 2021-01-26 00:25:27 · 123 阅读 · 0 评论 -
ML常用数据预处理方式
1) 标准化(均值移除)让样本矩阵每一列的平均值为0,标准差为1,如三个数a,b,c平均值:m=(a+b+c)/3a′=a−mb′=b−mc′=c−mm = (a+b+c) / 3 \\a' = a - m \\b' = b - m \\c' = c - m \\m=(a+b+c)/3a′=a−mb′=b−mc′=c−m预处理后的平均值为0:m′=(a′+b′+c′)/3=((a+b+c)−3m)=0m' = (a'+b'+c')/3 = ((a+b+c)-3m) = 0 \\m′原创 2021-01-24 20:57:35 · 212 阅读 · 3 评论 -
鸢尾花分类
Iris数据集下载链接:https://www.cnblogs.com/wjunneng/p/7324142.htmlStep1、导入相关的包from matplotlib import colorsimport numpy as npfrom sklearn import svmfrom sklearn.svm import SVCfrom sklearn import model_selectionimport matplotlib.pyplot as pltimport matplo原创 2020-07-14 04:20:27 · 582 阅读 · 2 评论