机器学习
路易三十六
Money Never Sleep
展开
-
葡萄酒逻辑回归分类(scala实现)
葡萄酒分类(scala实现)分类方法:逻辑回归 其中 0代表坏葡萄酒 1代表好葡萄酒训练集中质量评分7.0以上被视为好葡萄酒 import org.apache.spark.ml.classification.LogisticRegression import org.apache.spark.ml.param.ParamMap import ...原创 2018-12-01 17:47:09 · 2574 阅读 · 0 评论 -
在Windows的anaconda上安装tensorflow
在Windows的anaconda上安装tensorflow在编译python程序时候,发现程序报ModuleNotFoundError: No module named 'tensorflow'的错误原因是我们没有安装tensorflow的包首先前提是在自己电脑已经安装了anaconda1:打开Anaconda Prompt 在安装之前,说几个关于conda的小命令 ...原创 2019-03-13 17:25:50 · 631 阅读 · 0 评论 -
极大似然估计
极大似然估计博客转载自:https://blog.csdn.net/raintungl/article/details/78188182本篇博客主要讲解以下内容:一、参数估计二、极大释然估计1.似然函数2.极大似然估计(MLE)3.log似然函数4.损失函数5.求极大似然估计的一般步骤三、常见分布的参数估计1.高斯分布2.Bernoulli分布3.二项分布(Bi...转载 2019-03-11 16:18:51 · 2598 阅读 · 0 评论 -
机器学习(七)--支持向量机SVM
机器学习(七)--支持向量机SVM支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化(如下图B1边缘大于B2边缘),最终转化为一个凸二次规划问题来求解。 基本概念1.间隔最大化和支持向量如果一个线性函数能够将样本分开,称这些数据样本是线性可分的。那么什么是线性函数呢?其实很简单,在二...原创 2019-01-08 11:28:11 · 353 阅读 · 2 评论 -
机器学习(十)----聚类的扩展
机器学习(十)----聚类的扩展这篇文章主要讲解以下知识点:估计聚类趋势(判定数据集是否真的适合用做聚类) 簇数制定(数据集分成K类,K的确定) 评估聚类质量(聚类效果好不好) 模糊聚类 离群值检测(异常检测、孤立点检测) 估计聚类趋势(聚类工作第一步)均匀分布以及随机分布的点集一般聚类是没有什么意义的,那如何评估?霍普金斯统计量:空间统计量,检验空间随机性...原创 2019-01-13 22:06:23 · 611 阅读 · 0 评论 -
机器学习(九)--聚类
机器学习(九)--聚类基于不同的聚类规则会有不同的方法,那么常见的有基于哪一些聚类呢?基于距离的聚类 基于密度的聚类 基于网格的聚类基于距离的聚类,我们先看下有多少种衡量距离的方法(具体的方法原理大家可以去查找相关的书籍)绝对值距离 欧氏距离 闵可夫斯基距离 切比雪夫距离 马氏距离 Lance和Williams距离 离散变量的距离计算在聚类之前我们要进行数据中心化和...原创 2019-01-12 23:29:59 · 280 阅读 · 0 评论 -
评估分类器效能及提升分类器准确率的组合方法
评估分类器效能TP,TN,FP,FN,P,N分别表示真正例、真负例、假正例、假负例、正和负样本数含意TP(true positive):指被分类器正确分类的正元组TN(true negative):指被分类器正确分类的负元组FP(false positive):被错误地标记为正元组的负元组FN(false negative):被错误地标记为负元组的正元组 提升...转载 2019-01-02 22:35:38 · 647 阅读 · 0 评论 -
机器学习(六)分类模型--线性判别法、距离判别法、贝叶斯分类器
机器学习(六)分类模型--线性判别法、距离判别法、贝叶斯分类器 首先我们了解常见的分类模型和算法有哪些 线性判别法简单来说就是用一些规定来寻找某一条直线,用直线划分学习集,然后根据待测点在直线的哪一边决定它的分类如图,假如红色这条线是找出来的线,则要预测的那个红叉点为2 距离判别法简单来说就是预测某一个点的类别,分别计算这个点与各个样本点的距离(不是我们...原创 2019-01-07 11:58:33 · 4350 阅读 · 1 评论 -
机器学习(二)决策树
决策树定义分类决策树模型是一种描述对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点有两种类型:内部节点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归的对实例进行测试并分类,直至达到叶节点。最后...原创 2019-01-02 10:59:38 · 880 阅读 · 0 评论 -
机器学习(五)降维技术---主成分分析、因子分析
机器学习(五)降维技术---主成分分析、因子分析 降维(处理线性问题为主)一提到降维这个词,大家可能就会觉得非常高大上,到底是什么东西呢?降维通俗来讲就是把原先多个指标的计算降维为少量几个经过优化指标的计算,可能大家还是不理解,举个例子就是本来拿来参加建模的特征有100个,但是太多了,经过一些特征的一些组合变换衍生出一些新的特征变量,取对结果影响比较大的一些新的特征变量,现在问题就可以...原创 2019-01-06 01:12:28 · 2289 阅读 · 0 评论 -
机器学习(一)k-进邻算法
k-进邻算法概述原理存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,...原创 2019-01-01 15:41:50 · 434 阅读 · 0 评论 -
机器学习(八)----神经网络
机器学习(八)----神经网络这篇博客主要介绍以下几种类型的神经网络单层感知器-----------最简单的人工神经网络 线性神经网络 BP神经网络 Hopfield神经网络 RBF神经网络性能评估函数 简单介绍在机器学习和认知科学领域,人工神经网络(artificial neural network,缩写ANN),简称神经网络(neural network,缩写...原创 2019-01-10 16:46:26 · 1201 阅读 · 0 评论 -
机器学习(四)变量选择技术----------岭回归,Lasso
机器学习(四)变量选择技术----------岭回归,Lasso 我们回顾一下之前线性回归模型里面的一元线性回归模型和多元线性回归模型,里面在谈论如何找到最佳系数时,使用的是最小二乘法,在这里我们先把多元线性回归的最小二乘解简化表达一下这里可能会有疑问的是X的第一列代表是什么,为什么全是1,第一列代表截距项多元线性回归的最小二乘解是无偏估计的,什么是无偏估计呢?简单来说就是通过...原创 2019-01-04 16:47:11 · 3652 阅读 · 0 评论 -
机器学习(三)线性回归、广义线性回归、非线性回归
机器学习(三)线性回归模型、广义线性回归模型、非线性回归模型 线性回归(数据集要满足正态分布)一元线性回归模型:在这里会想到,如何确定方程中的系数呢?我们先来了解最小二乘法,简单来说就是这个点作y轴的平行线与直线相交,那一段y值的平方求和起来最小就是了那我们怎么求呢?在这之前大家先要了解一些偏导数的知识为了方便大家理解,举一个通俗易懂的例子 多元...原创 2019-01-03 17:07:47 · 5052 阅读 · 1 评论 -
分类树和回归树的区别
分类树和回归树的区别分类树以C4.5分类树为例,C4.5分类树在每次分枝时,是穷举每一个feature的每一个阈值,找到使得按照feature<=阈值,和feature>阈值分成的两个分枝的熵最大的阈值(熵最大的概念可理解成尽可能每个分枝的男女比例都远离1:1),按照该标准分枝得到两个新节点,用同样方法继续分枝直到所有人都被分入性别唯一的叶子节点,或达到预设的终止条件,若最终叶...转载 2019-03-04 10:08:29 · 2159 阅读 · 0 评论