机器学习
文章平均质量分 90
樱缘之梦
这个作者很懒,什么都没留下…
展开
-
聚类算法——Birch详解
1 原理1.1 B树(1)m路查找树一棵m路查找树,它或者是一棵空树,或者是满足如下性质的树:根最多有m棵子树,并具有以下结构:,是指向子树的指针,是关键码,在子树中所有的关键码都大于,小于。 在子树中所有的关键码都大于 在子树中所有的关键码都小于 子树也是m路查找树(2)B树m阶B树时一棵m路查找树,它或是空树,或者满足以下性质:树中每个节点至多有m棵子树 根节点至少有两棵子树 除根节点以外的所有非终端节点至少有棵子树 所有的叶子节点都位于同一层1.2 步骤原创 2021-05-13 16:16:05 · 3482 阅读 · 0 评论 -
机器学习——超参数调优
超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。超参数可以分为两种类型:定义模型及结构本身的参数,目标函数与与优化算法所需的参数,前者用于训练和预测阶段,后者用于训练阶段。在实战过程中,需要对机器学习模型进行优化以确保模型的最高准确率,因此,超参数调优参数应运而生,常见的超参数搜索算法有网格搜索、随机搜索、贝叶斯优化等。超参数搜索算法一般包括三个要素: 目标函数,即算法需要最大化/最小化目标; 搜索范围,一般通过上限和下限来确定; 算法的其他参数,如搜索步原创 2021-05-11 10:02:12 · 5232 阅读 · 0 评论 -
百面机器学习——第一章特征工程
特征工程:是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题和预测模型之间的关系。对于机器学习问题,数据和特征往往决定了结果的上限,而算法,模型的选择及优化则是在逐步接近这个上限。特征工程的框架图:常用的数据类型:(1)结构...原创 2019-03-01 15:47:22 · 436 阅读 · 2 评论 -
决策树——CART和模型树
CART树理解: 如果CART树处理离散型数据,叫做分类决策树,那么,引入基尼指数作为寻找最好的数据划分的依据,基尼指数越小,说明数据的“纯度越高”,随机森林的代码里边就运用到了基尼指数。如果CART树处理连续型数据时,叫做回归决策树,那么,引入了平方误差,首先,它使用二元切分来处理数据,得到两个子集,计算误差,找到最小误差,确定最佳切分的特征编号和特征值,然后进行建树。构建回归树,需要...原创 2018-03-21 15:51:26 · 4412 阅读 · 0 评论 -
过拟合问题——正则化方法
看了很多资料,本身想放一个正则化的概念的,实在不敢放,怕吓跑一堆人,所以,将就吧。 首先,我们知道正则化(Regularization)是解决过拟合问题的,简单来说,过拟合就是训练样本效果比较好,但是在测试集上的效果就比较差了,官方一点的话就是模型的泛化能力太差。 正则化的方式有很多,常见的有数据增强、L1正则化,L2正则化,早停,Dropout等。 正则...原创 2018-07-13 13:16:19 · 1514 阅读 · 0 评论 -
Orange-Classification,Regression
1.ClassificationOrange和sklearn一样,提供了Classification和Regression等机器学习的算法,具体使用如下:import Orangedata = Orange.data.Table("voting")lr = Orange.classification.LogisticRegressionLearner()rf = Orange.c...原创 2019-01-23 18:21:05 · 949 阅读 · 0 评论 -
随机森林
随机森林的思想:随机取样,创建M棵决策树,并对决策树的结果进行投票,选出最多的类别作为最后的分类结果。这里在创建决策树的时候引入了基尼指数的概念,基尼指数和信息增益的作用一样,都是选出数据集的最佳分界点,不过这里选择的是最小的基尼指数,每一个划分好的数据集就是一颗决策树,计算每棵决策树的基尼指数选出最小的基尼指数的树的特征,索引等信息。这里有一个剪枝的处理,取出左右子集,如果左右子树为空,...原创 2018-03-20 16:20:17 · 549 阅读 · 0 评论 -
朴素贝叶斯算法
介绍概率和条件概率: 假设一个盒子里装了3个灰球和4个黑球,则黑球的概率是4/7,灰球的概率是3/7,这就是我们学习过的概率。现将这7个球分别放在A,B两个盒子里边,其中,A盒子里边装2个灰球,2个黑球,B盒子里边装1个灰球,2个黑球,此时,如果我们计算从B中取出灰球的概率,这个就是条件概率。计算方法:P(灰|B)=P(灰 and B )/P(B)=1/7 *7/3=1/3P(灰 and B)=...原创 2018-03-13 16:56:21 · 300 阅读 · 0 评论 -
tensorflow的安装
安装好adaconda软件,打开 adaconda prompt anaconda search -t conda tensorflow 查看 conda create -n tensorflow python=3.5 配置python=3.5环境 选择 yes 进行安装 activate tensorflow 激活tensorflow pip insta...原创 2018-03-08 11:02:11 · 303 阅读 · 0 评论 -
梯度下降算法
在学习逻辑回归时,对梯度上升算法进行了应用,看到其他的博客讲解,梯度上升算法适合求最大值,梯度下降算法适合求最小值,这里有一个分析:梯度上升算法公式 是学习率,是一个常数。 这个...原创 2018-03-14 20:46:19 · 204 阅读 · 0 评论 -
决策树 算法原理及代码
决策树可以使用不熟悉的数据集合,并从中提取出一系列的规则,这是机器根据数据集创建规则的过程,就是机器学习的过程。用一个小案例分析: 通过No surfacing 和 flippers判断该生物是否是鱼,No surfacing 是离开水面是否可以生存,flippers判断是否有脚蹼引入信息增益和信息熵的概念:信息熵:计算熵,我们需要计算所有类别所有可能值包含的信息期望值。 ...原创 2018-03-08 20:11:19 · 9553 阅读 · 0 评论 -
Matplotlib——创建散点图
入门:导入所用到的包import numpy as npimport matplotlib.pyplot as pltas 是对包起一个名字,便于后边程序的编写 无颜色差别fig=plt.figure() #建立一个画布ax=fig.add_subplot(111) #在画布中建立图表,fig.add_subplot()函数。画布分割成1行1列,图像ax.sca...原创 2018-03-01 17:17:42 · 1271 阅读 · 0 评论 -
机器学习——逻辑回归
假设我们有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合的过程就称作回归。逻辑回归的主要思想是根据现有数据对分类边界线建立回归公式,以此分类。这里的“回归”源于最佳拟合,表示要找到最佳拟合参数。逻辑回归是基于条件概率的判别模型。 推导过程: 为了实现逻辑回归分类器,我们可以在每个特征上诚意一个回归系数,然后把所有的结果值相加,将这个总和带入到Sig...原创 2018-03-05 20:34:36 · 720 阅读 · 0 评论 -
集成算法——Adaboost代码
集成算法是我们将不同的分类器组合起来,而这种组合结果就被称为集成方法或者是元算法。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同意算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。两种形式:bagging方法:从原始数据集选择S次后得到S个新数据集,之后将某个学习算法分别作用于数据集,就得到了S个分类器,在对新的数据集进行分类时,使用这些分类器进行分...原创 2018-03-19 15:46:53 · 1431 阅读 · 0 评论 -
回归分析——线性回归
回归的目的是预测数值型的目标值。最直接的方法就是依据输入写出一个目标值的计算公式。这就是回归方程,公式为y=wX,其中w是回归系数,求这些回归系数的过程就是回归。这里的回归是线性回归,现在的问题是,手里有一些X和对应的y,怎么能找到w呢?一个常用的方法是找出使误差最小的w。这里的误差指的是预测值和真实值之间的差值,使用误差的简单累加使得该误差的简单累加将使得正差值和负差值相互抵消,所以我们采...原创 2018-03-19 19:07:47 · 1172 阅读 · 0 评论 -
机器学习——支持向量机主要思想
概念:支持向量运算的分类器,在数据上应用基本形式的SVM分类器就可以得到低错误的结果,能够对训练集以外的数据点做出很好的分类决策。名词:支持向量:离分离超平面最近的那些点,需要找到最大化支持向量到分隔超平面的距离的优化求解方式。分割超平面:在二维空间内,分隔超平面就是一条直线,可以分开两种不同的点,在n维空间内,分隔超平面则是n-1点到超平面的距离:也是几何距离,求d的最大间隔函数距离:也是约束条...原创 2018-03-03 14:37:50 · 9637 阅读 · 0 评论