![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
小火箭丶
求实求真
展开
-
七种回归模型理解
https://zhuanlan.zhihu.com/p/40141010原创 2021-07-22 09:37:11 · 125 阅读 · 0 评论 -
向量范数&矩阵范数
参考链接:https://www.zhihu.com/question/20473040原创 2021-07-22 09:34:10 · 87 阅读 · 0 评论 -
机器学习-专项训练
准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率为了解决准确率和召回率冲突问题,引入了F1分数 位势函数法的积累势函数K(x)的作用相当于Bayes判决中的() 类概率密度与先验概率的乘积 从使用的主要技术上看,可以把分类方法归结为哪几种类型规则归纳方法 贝叶斯分类方法 决策树分类方法基于距离的分类方...原创 2020-07-16 09:46:23 · 1687 阅读 · 0 评论 -
深度学习-对抗神经网络简介
发展简史 五年前,Generative Adversarial Networks(GANs)在深度学习领域掀起了一场革命。这场革命产生了一些重大的技术突破。Ian Goodfellow等人在“Generative Adversarial Networks”中提出了生成对抗网络。学术界和工业界都开始接受并欢迎GAN的到来。GAN的崛起不可避免。 首先,GAN最厉害的地方是它的学习性质是无监督的。GAN也不需要标记数据,这使GAN功能强大,因为数据标记的工作非常枯燥。 其次,GAN的潜在用例使它成..原创 2020-07-16 08:44:31 · 3123 阅读 · 0 评论 -
机器学习-支持向量机原理
支持向量机做为传统二分类分类器,其能处理线性可分数据,也能处理线性不可分数据(利用核函数),是一种非常重要和受欢迎的分类算法. 支持向量机的决策边界可以做个形象的定义 决策边界:选出来离雷区最远的(雷区就是边界上的点,要Large Margin) 对于目标函数的计算问题 可以转换为距离的计算问题 决策方程的定义 优化的目的: 同一个点 也许都是最近点 但是 决策边界可以 变化 也就是间隙 会有所不同 最求最大雷区间距..原创 2020-07-15 20:35:15 · 566 阅读 · 0 评论 -
机器学习-聚类之DBSCAN原理
基本概念:(Density-Based Spatial Clustering of Applications with Noise) 核心对象:若某个点的密度达到算法设定的阈值则其为核心点。 (即r 邻域内点的数量不小于minPts) 参数ϵ:领域内半径r 直接密度可达:若某点p在点q的r 邻域内,且q是核心点则p-q直接密度可达。 密度可达:若有一个点的序列q0、q1、…qk,对任意相临两点是直接密度可达的 ,则称从q0到qk密度可达,这实际..原创 2020-07-11 16:22:00 · 392 阅读 · 0 评论 -
机器学习-聚类之K-Means原理
聚类概念:聚类属于无监督问题:手里没有标签聚类实质是将相似的东西分到一组(簇)难点在于参数的选择和评估 因为没有真值K-Means 基本概念K值是需要人为设定,即为簇的个数质心:均值即为同一簇下所有点的均值目标函数:用距离来度量 常用到欧式距离和余弦相似度(需要对数据先标准化)Ci 为簇的质心 K为簇族数实际工作流程:参照下图1主要步骤顺序为1.首先人为先确定K值 该参数比较难确定2.随机初始化K个簇的质心3.根据距离划分簇的样本 如d1<.原创 2020-07-11 08:57:26 · 292 阅读 · 0 评论 -
机器学习-Bayes算法理论
贝叶斯简介: 贝叶斯(约1701-1761) Thomas Bayes,英国数学家 贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章 生不逢时,死后它的作品才被世人认可 贝叶斯算法:可以应用于图像分类、拼写纠错、垃圾邮件过滤、和拼写检查器等等 贝叶斯算法原理: 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大 逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的原创 2020-07-10 20:45:27 · 314 阅读 · 0 评论 -
机器学习-数据降维之PCA(SVD奇异值分解&特征值分解)
1.相关背景 在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。 因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息..原创 2020-07-10 10:15:20 · 1443 阅读 · 0 评论 -
机器学习-关于数据不均衡、某类别数据量不够的解决方案.
随着人工智能的快速发展和大数据时代的来临,数据挖掘、数据分析变得越来越重要,它们为各行各业带来了巨大的实际价值.与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。1、数据不均衡的影响数据不均衡会导致模型收敛速度减慢,并且个别类别学习的特征过少造成泛化能力偏差对于图像数据 数据不均衡的处理方法主要通过数据增强的方法:例如对图像进行旋转 镜像对称 随机裁剪 放松 平移 角度变化 random还可以通过采样..原创 2020-07-09 20:49:25 · 6920 阅读 · 0 评论 -
机器学习-过拟合、正则化、稀疏性、交叉验证概述
在机器学习中,我们将模型在训练集上的误差称之为训练误差,又称之为经验误差,在新的数据集(比如测试集)上的误差称之为泛化误差,泛化误差也可以说是模型在总体样本上的误差。对于一个好的模型应该是经验误差约等于泛化误差,也就是经验误差要收敛于泛化误差,根据霍夫丁不等式可知经验误差在一定条件下是可以收敛于泛化误差的。 当机器学习模型对训练集学习的太好的时候(再学习数据集的通性的时候,也学习了数据集上的特性,这些特性是会影响模型在新的数据集上的表达能力的,也就是泛化能力),此时表现为经验误差很小,但往往此时的泛化原创 2020-07-09 16:16:58 · 6239 阅读 · 0 评论 -
机器学习-传统二分类器实现多分类理论
机器学习常见的分类器算法有:逻辑回归LR 支持向量机SVM 决策树DT 随机深林RF 贝叶斯算法Bayes起初设计的目的多是针对二分类问题,而我们在实际应用中总会遇到多分类问题,应该如何实现.常见的几种方法:(1)直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单,但其计算复杂度比较高,实现起来比较困难,只适合用于小型问题中;(2)间接法,主要是通过组合多个二分类器来实现多分类器的构造,常见的方法有on原创 2020-07-09 09:15:01 · 2755 阅读 · 0 评论 -
机器学习-归一化、标准化理论笔记
原理 归一化:1)把数据变成(0,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。2)把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 标准化:在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素值,这些资料可能是高维度的,资料标准化后会使每个特征中的数值平均变为0(将每个特征的值都减掉原始资料中该特征的平均)、标准差变为1,即原创 2020-07-06 20:53:53 · 409 阅读 · 0 评论 -
机器学习-逻辑回归理论笔记
逻辑回归:名字虽为回归,实际为传统二分类器. 决策边界可为非线性. 工业应用中先简单后复杂sigmoid 函数函数功能将输出值z映射为0-1的概率值预测函数整合函数 找到y的对应函数似然函数 对数似然梯度上升求最大值批量梯度下降 目标函数找出最小值方程 标记处为求导后等式替换的结果 为了后续消除分母SOFTMAXe^h(theta^t*x)每一个都是向量 以及one-hot编码要注意比如四分类 [0 0 1 0]交叉熵损失函数...原创 2020-07-06 10:20:56 · 144 阅读 · 0 评论 -
AI时代如何入门
python 基本语言应用、常用工具库的使用 numpy pandas matplotlib sklearn tensorflow torch 环境配置 机器学习在数据挖掘,图像识别,语音,NLP中有着广泛应用 机器学习基本流程 数据收集预处理 标定 特征选择 模型构建 评估预测 学习AI 自然要将每个算法公式推导融汇贯通 数学非常重要 学习过程多写笔记 多参考 GITHUB 天池 KAGGLE 各类资源 刚开始的过程都是模...原创 2020-07-06 08:00:28 · 83 阅读 · 0 评论 -
Python入门书籍建议
1、python语言是一个极易入门的一种面向对象的语言.所以很适合初学者,当然如果你了解其他语言你学习起来更加如鱼得水. 2、一般情况下语言学习不是跟随书+实战、就是视屏教学+实战提升、或者两者的结合. 3、我当出学python的第一本书为python基础教程 这本书基础的东西还是比较全面 4、但是学习的过程发现其实很多东西是用不到的,因为每个人利用...原创 2019-10-11 16:23:52 · 449 阅读 · 0 评论 -
Python- Numpy Matplotlib Pandas API 网址
https://matplotlib.org/index.html matplotlib https://docs.scipy.org/doc/numpy-1.15.1/reference/numpy https://pandas.pydata.org/ pandas https://www.runoob.com/python/python-tutorial...原创 2019-09-04 08:54:09 · 152 阅读 · 0 评论 -
机器学习-梯度下降理论笔记
该式为梯度下降目标函数:梯度下降主要有三种:批量梯度下降,随机梯度下降,小批量梯度下降 批量梯度下降:容易得到最优解,但是由于每次考虑所有样本,速度很慢随机梯度下降: 每次找一个样本,迭代速度快,但不一定每次都能收敛小批量梯度下降:每次更新一部分数据,比较实用学习率即步长会对我们的结果产生巨大的影响,一般从小步长开始选择 根据经验一般选择0....原创 2019-07-21 15:47:00 · 90 阅读 · 0 评论 -
机器学习-线性回归理论笔记
线性回归:1、图1、数据(特征(工资、年龄)) 2维 所以对应y为面2、目的(预测额度) y3、考虑(特征的影响程度(参数))4、假设是年龄的参数,是工资的参数 theta0为偏置项5、拟合的平面为: 6、 为误差项服从高斯分布 高斯分布符合很多事件发生规律...原创 2019-07-19 18:41:53 · 129 阅读 · 0 评论