小杜同学爱学习-CSDN博客

转载服务器使用Win10代理上网

因校园服务器（Ubuntu）不能联网，故使用Windows环境网络代理进行联网，从而下载所需工具包，操作步骤如下：使用网络代理的前提必须是，Windows环境与Linux环境必须可以相互Ping通(尝试关闭防火墙）。在Windows环境中下载软件 CCProxy 配置 CCProxy 环境，点击（齿轮）按钮Option，配置如第一张图参数，然后再点击 Advanced，配置如第二张图参数：点击 Account，设置如下参数打开 Ubuntu 终端，使用以下命...

2021-01-21 10:06:25 1277

原创机器学习-聚类

1.聚类监督学习：发现数据属性和类别属性之间的关联模式，并通过利用这些模式来预测未知数据的类别属性无监督学习：数据没有目标属性，发现数据中存在的内在结构及规律无监督学习中研究最多，应用最广的是聚类，常见的无监督学习任务还有密度估计，异常检测等。聚类是一种发现数据中的相似群的技术，聚类是一个将数据集中某些方面相似的数据成员进行分类组织的过程。一个聚类就是一些数据实例的集合，这个集合中的元素彼此相似，与其它聚类中的元素不同。聚类既可以作为一个单独过程，用于寻找数据内在的分布结构，也可以作为分类等其它

2020-07-27 11:02:57 1727

原创集成学习-多样性的度量和增强

多样性度量在集成学习中，我们希望分类器具有多样性。多样性度量是用于度量集成个体分类器的多样性。常规的做法是度量两个分类器的相似性，有如下指标。给定数据集D={（Xi，Yi）}，对于二分类任务，Yi={-1，+1}，对于两个分类器hi和hj的预测结果。列表为：1.马修斯相关系数针对二分类问题：当预测结果全部正确时，正相关程度最大MCCij=1当预测结果全部正确时，负相关程度最大MCCij=-1当预测结果一半正确一般错误时，且正负类标比例相同时，此时相当于随机猜测所以相关系数越小，表明两个分

2020-07-26 15:38:46 1303

原创集成学习-结合策略

为什么要集成学习器从统计方面，降低因单一学习器误选导致的泛化性能不佳的风险从计算方面，降低陷入局部极小点的风险从表示方面，扩大假设空间，可以学得更好的近似几种常见的结合策略平均法-数值型输出常用结合策略1.简单平均法2.加权平均法，要求权重非负且和为1一般个体学习器性能相差较大时使用加权平均，性能相近时使用简单平均法（可用测试集准确率判断性能）投票法-分类1.绝对多数投票法：若某标记得票过半，则预测为该标记，否则拒绝预测（在可靠性要求高的学习任务中很有效）2.相对多数投票法：预测为得票

2020-07-26 09:17:37 1410

原创机器学习-集成学习

在机器学习中，很多算法都是单打独斗的英雄，而集成学习就是这些英雄组成的团队，实现“三个臭皮匠顶个诸葛亮”的效果。什么是集成学习集成学习是机器学习的一种训练思路，并不是某种具体的方法或算法。集成学习的核心就是“人多力量大”，他把已有的算法就行结合，从而得到更好的效果。本文主要介绍集成学习的2种思路：Bagging,boosting.baggingbaggibg的核心思路是民主，它对所有基础模型都一致对待，每个基础模型手里只有一票，然后使用民主投票的方式得到最终结果。大部分情况下，经过bagging

2020-07-24 16:48:13 216

原创机器学习-贝叶斯分类

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单也是最常见的分类方法。分类算法的内容是要求给定特征，让我们得出类别，这也是所有分类问题的关键。朴素贝叶斯分类朴素贝叶斯分类的核心算法：换个表达形式即为：我们最终求P(类别|特征)即可！给定数据如下：问题：如果一对男女朋友，男生向女生求婚，男生的四个特点是帅，性格好，高，上进，请你判断一下女生是嫁还是不嫁？这是一个典型的分类问题，转化为数学问题就是比较P（嫁|帅，性格好，高

2020-07-23 09:44:49 570

原创机器学习-深度学习

深度学习，神经网络，机器学习，人工智能的关系简单来说：1.深度学习是机器学习的一个分支（最重要的分支）2.机器学习是人工智能的一个分支传统机器学习VS深度学习相似点：在数据预处理方面，二者也非常相似，对数据进行一些操作：1.数据清洗2.数据标签3.归一化4.去噪5.降维区别：1.传统机器学习的特征提取主要依赖人工，针对特定简单任务的时候人工提取会简单有效，但是并不能通用。2.深度学习的特征提取并不依靠人工，而是机器自动提取的。这也是为什么说深度学习的可解释性差，我们并不知道它

2020-07-22 10:08:17 2442

原创机器学习-常用八大神经网络框架

为什么需要机器学习机器学习对于那些我们直接编程太多复杂的任务来说是必须的。有些任务很复杂，以至于无法解决任务中的所有细节并精确编程。所以我们通过向机器学习算法提供大量的数据，让算法通过探索数据找到一个可以实现程序员目的的模型来解决问题。例如下面的两个例子：1.写一个程序去识别复杂场景下三维物体是很困难的，我们不知道编写什么样的程序，因为我们不了解它在我们大脑中的运作机制，即使知道如何实现，写出来的程序也可能非常复杂。2.写一个程序计算信用卡诈骗概率是很困难的，因为没有任何既简单又可靠的规则，我们需要

2020-07-21 15:37:29 7947 1

原创神经网络-全局最小与局部极小

模型学习的过程实质上就是一个寻找最优参数的过程，例如BP算法试图通过最速下降来寻找使累积经验误差最下的权值与阈值，在谈到最优时。一般会提到局部极小和全局最小。1.局部极小解：参数空间中某个点，其邻域点的误差函数值均不小于该点的误差函数值。2.全局最小解：参数空间某个点，所有其他点的误差函数值均不小于该点的误差函数值。要成为局部极小点，只要满足该点在参数空间的梯度为0.局部极小可以有多个，而全局最小只有一个。全局最小一定是局部极小，而局部极小却不一定是全局最小。在很多机器学习算法中都试图找到目标函数的

2020-07-20 18:00:55 6436 4

原创决策树-属性缺失处理

数据集中的样本通常在某些属性上是缺失的，如果属性缺失的样本数量较少，我们可以直接简单粗暴的把不完备的样本删掉。但如果有大量样本都有属性值缺失，那么就不能简单的删除了，因为这样删除了大量有用信息，模型性能会有影响。本篇博客介绍如何处理属性缺失的样本。1.如何在属性缺失的情况下进行属性选择（比如“色泽”这个属性值缺失，那么如何计算“色泽”的信息增益）2.给定划分属性，若样本在该属性上的值是缺失的，如何对这个样本划分（即到底把这个样本划分到哪个节点）比较发现，“纹理”在所有属性中信息增益最大，因此纹理被选

2020-07-19 15:05:33 1192

原创机器学习-剪枝处理

决策树生成算法递归的产生决策树，直到不能继续分支或达到要求为止，这样的决策树往往对训练数据分类很准确，因为他就是基于训练数据的熵或者基尼不纯度（类似熵，计算更方便）进行分类的，因此对训练数据会产生过拟合现象，而对未知的数据则没有那么准确。过拟合的本质原因是决策树在训练时追求如何提高训练数据准确度，而没有考虑决策树的复杂性。决策树由节点和有向边组成，节点有两种类型：内部节点和叶子节点，内部节点表示一个特征或属性，叶子节点表示一个类（不可再分）。为了大家更容易理解，这里举一个例子，所给训练数据是贷款申请数

2020-07-19 10:07:50 673

原创机器学习-随机森林

什么是随机森林随机森林是一种由决策树构成的集成算法，在很多情况下都有不错的表现。在解释随机森林前，需要先提一下决策树。决策树是一种很简单的算法，他的解释性强，也符合人类的直观思维，是一种基于if-then-else规则的监督学习算法。随机森林是由很多决策树构成的，不同决策树之间没有关联。当我们进行分类任务时，新的样本输入，就让森林中每一棵决策树分别进行判断和分类，每个决策树会得到一个自己的分类结果，决策树分类结果中哪一个分类最多，那么随机森林就会把这个当做最终结果。构造随机森林的4个步骤1.假

2020-07-19 08:55:24 455

原创机器学习-类别不平衡问题

机器学习中常常会遇到数据的类别不平衡，也叫数据偏斜。1.类别不平衡下的评估问题对于平衡的数据我们一般都用准确率也就是（1-误分率）作为一般的评估指标，这种标准的前提是：数据是平衡的，正例与反例的重要性一样，二分类器的阈值是0.5。在这种情况下用准确率对分类器进行评估是合理的。而当类别不平衡时，准确率就非常具有迷惑性，下面给出几种主流的评估方法。1.ROC是一种常见的替代方法，计算ROC曲线下的面积是一种主流的方法2.Precision-recall curve和ROC有相似的地方，但定义不同，计算

2020-07-18 12:45:41 427

StarFireduziqun的博客