机器学习
文章平均质量分 89
机器学习笔记
Harmony_Launch
这个作者很懒,什么都没留下…
展开
-
【机器学习笔记(十二)】之初识支持向量机(SVM)
一. 支持向量机的作用目的:做分类,并且分类的边界越宽越好何谓边界的宽度呢?请看下图: 大家可以看到,左图的边界宽度明显比右图的宽度要小很多,边界越宽当然越好,即分类的泛性越大,即若有更多的点需要分类,那么右图的分类边界表现一般是更好的。二. 推导边界点到分类平面的距离公式 要得到最宽的分类边界,跟最靠近分类边界的点有关,因为分类的边界本就是为了分割开不同种类的点,而最靠近边界的点原创 2020-07-14 19:37:38 · 669 阅读 · 0 评论 -
【机器学习笔记(十一)】之贝叶斯公式的理解与应用场景
一. 贝叶斯要解决的问题(逆向概率问题)(一)正向概率: 已知黑盒中有a个红球,b个黄球,那么拿出一个球是黄球的概率多大?这种问题就是正向概率,由已知的条件俩推测可能出现的结果。(二)逆向概率: 同样是一个黑盒,但不清楚红球与黄球的比例,实验10次,每次拿出一个球后又放回,通过这10次实验结果,来推测黑盒中的红球黄球比例。这种问题叫逆向概率,贝叶斯算法要解决的就是这种问题,这也是我们日原创 2020-07-11 11:31:27 · 3215 阅读 · 0 评论 -
【机器学习笔记(十)】之通俗易懂理解到底最大似然估计是什么?
导言: 咱们学习概率论的时候,一定学习过最大似然估计这个概念,但是大家可能都只是学习了如何求解最大似然估计,而不太清楚什么叫似然估计?为什么要求最大的似然估计?估计是用于估计什么?这些问题可能大家都没有想过,也可能是因为教科书上的公式太多,没有清晰地讲解最大似然估计的用途。 那么这篇文章就带大家来看看何为最大似然估计。这里我将最大似然估计分为“似然估计:,“最大”两个部分来讲解。一.原创 2020-07-11 10:49:01 · 756 阅读 · 0 评论 -
【机器学习笔记(九)】之Anaconda 安装PyTorch踩的坑
一. PyTorch的安装命令Anaconda 安装 PyTorch 不像其他的库一样直接 Pip 安装,而是到PyTorch官网上选择你需要安装的环境配置,然后它会提供给你单独的安装命令。如下所示:conda install pytorch torchvision cudatoolkit=10.2 -c pytorch二. 为Anaconda添加国内镜像源在安装过程中,我们会遇到很多问题,很多需要下载的包可能会由于网络连接的关系下载失败,因此,我们需要为Anaconda添加国内的镜像源,如清原创 2020-07-05 12:08:40 · 764 阅读 · 1 评论 -
【机器学习笔记(八)】之Sklearn中交叉验证 KFold简要讲解
Sklearn中交叉验证API KFold讲解一. 交叉验证原理讲解1. 设置验证集的原因在机器学习建模过程中,将数据分为训练集和测试集。测试集合训练集是完全分开的两个数据集,完全不参与训练,只是用于模型最终确定后,来测试模型的效果。而训练集又要分出一部分数据用来验证模型的训练效果,即验证集。验证集在每次训练集训练结束后,对模型的效果进行初步地测试。之所以要设置验证集,是因为训练数据会有过拟合的情况出现,即训练数据能够很好地匹配训练数据,但对于训练数据之外的数据效果非常差。验证集不参与训练,可以客观地原创 2020-07-04 22:25:49 · 2057 阅读 · 1 评论 -
【机器学习笔记(七)】之泰坦尼克号获救问题 求解思路(完整代码-详细注释)
泰坦尼克号获救问题(线性回归 / 逻辑回归 / 随机森林 求解思路)一. 预处理 数据表格首先分析表格中的数据,可以看到 Age 列中的数据是有缺失的,因此,需要补齐所有空缺的Age数据,用中位数。再看Sex列中的性别字符串转换成 数字,便于计算。将所有 male替换为 0, female 替换为1。同理, Embarked 列也要转换成数字,由于该列中依然有缺失,需要填充,那就填充出现次数最多的S,再进行准换。数据预处理结束后,表格中的数据被补齐了,可以进行计算操作了。二. 交叉验证1.原创 2020-07-04 22:16:21 · 962 阅读 · 0 评论 -
【机器学习笔记(六)】之集成算法的简介(Bagging, Boosting, Stacking)
集成算法(Ensemble learning)一. 目的:用多个算法进行集成,让机器学习效果比单个算法的效果更好。二. 类别:(1). Bagging:训练多个分类器取平均f(x)=1/M∑m=1Mfm(x) f(x) = 1/M\sum_{m=1}^{M}f_{m}(x)f(x)=1/Mm=1∑Mfm(x)(2). Boosting:从弱学习器开始加强,通过加权进行训练(不断添加新的树,完善前面的结果)Fm(x)=Fm−1(x)+argminh∑i=1nL(yi,Fm−1(xi)+h原创 2020-07-02 22:38:08 · 327 阅读 · 0 评论 -
【机器学习笔记(五)】决策树简介/ 决策树算法 / 决策树的剪枝
一. 决策树:从根节点开始一步步走到叶子节点(决策)所有数据最终都会落到叶子节点,既可以做分类也可以做回归二. 决策树的组成:根节点:第一个选择点非叶子节点与分支:中间过程叶子节点:最终的决策结果三. 决策树的训练与测试训练阶段:从给定的训练集构造出来一颗树(从根节点开始选择特征)测试阶段:根据构造出来的树模型从根节点开始用测试集测试难点在于如何构造一个树,特征分类的选择问题四. 如何选择特征节点呢?(1). 目标:通过一种衡量标准,计算通过不同特征进行分支选择后的分类情况原创 2020-07-01 23:43:32 · 417 阅读 · 0 评论 -
【机器学习笔记(四)】之如何正确记忆TP,FP,FN,TN 这四种判断类型?
如何记忆TP,FP,FN,TN 四种判断类型,如何不混淆这4种类型?在此记录我的方法。TPTrue Positive,从英文名可以看出,首先是true,正确的,说明判断正确;再看后面的是Positive,正类,那么联系前文可知是判断正确的,即将正类判断为正类。FPFalse Positive,同理,首先是False,错误的,说明判断错误;再看后者,Positive,正类,那么联系前文可以记忆将负类判断错误为正类。FNFalse Negative。首先是False,判断错误;再看后者,Negati原创 2020-06-30 20:11:56 · 1509 阅读 · 0 评论 -
【机器学习数学基础】之线性代数标量与向量运算(易混淆点)
线性代数标量与向量标量:标量是一个表示大小的数字,一般用普通小写字母表示,如 a .向量:一个同时具有大小与方向的几何对象,如 【a, b】,一般用粗体的小写字母表示,如x。向量又分为行向量与列向量:行向量: [ab]\begin{bmatrix}a & b\end{bmatrix}[ab]列向量:[ab] \begin{bmatrix}a\\b\end{bmatrix}[ab]向量的模:∣a∣=x12+x22+...+xN2\left | a \right |原创 2020-06-24 23:34:07 · 1645 阅读 · 0 评论 -
【机器学习笔记(三)】之逻辑回归公式推导
逻辑回归目的:经典的二分类算法机器学习算法选择:先逻辑回归再用复杂的,越简单越好。逻辑回归的决策边界:可以是非线性的。Sigmoid函数公式:逻辑回归所需要的Sigmoid函数,用来对预测值进行分类。自变量取值为任意实数,值域[0,1]解释:将任意的输入映射到了[0,1]区间,我们在线性回归中可以得到一个预测值,再将该值映射到Sigmoid函数中,这样就完成了从值到概率的转换,也就是分类任务。Sigmoid函数是逻辑回归的重点。预测函数:从输入中计算预测值的函数可以看到,预测函数直接原创 2020-06-18 21:13:11 · 384 阅读 · 0 评论 -
【机器学习笔记(二)】之梯度下降公式介绍
梯度下降我们的目标是预测值与真实值的差距越小越好,由此可以设置目标函数为:上式中,平方项内为真实值与预测值的差值,目标函数为差值的平方的均值。思考:目标函数值越小越好,即求取目标函数的最小值点。通过梯度下降一点一点地求取。1.批量梯度下降上式左边为目标函数对θ求偏导,求得均值梯度,上式右边即利用左边计算出的梯度值。优缺点:容易得到最优解,但是由于每次计算需考虑所有样本,计算速度很慢。2.随机梯度下降随机寻找一个样本,计算梯度。优缺点:迭代速度快,但不一定每次都朝着收敛的方向。3.小批原创 2020-06-17 11:27:51 · 1115 阅读 · 0 评论 -
【机器学习笔记(一)】之线性回归公式推导
一.线性回归举例:以年龄和工资为参数,预测可以从银行贷款的金额通过提供的年龄和工资参数,对贷款额度进行预测。x是输入的年龄和工资值,通过线性回归来拟合平面。可以看到,上式中存在着偏置项,它与另外两项的格式不太相符,为了便于之后的矩阵运算,我们可以将偏置项对应的x值全都设为1,这样,三项的格式就统一了,也方便于后面矩阵的计算。二.误差真实值和预测值之间肯定是存在着差异的。误差如下:误差是独立并且具有相同的分布,并且服从高斯分布。以下式子是误差的高斯分布概率:思考:我们的需求是提供年龄原创 2020-06-16 23:22:48 · 541 阅读 · 0 评论