机器学习及其应用
文章平均质量分 75
星空记忆
You can do anything you set your mind to,man.
展开
-
线性回归
1.线性回归基本形式 1)单变量线性回归扩展至多维 单变量:y = kx+b 多变量可以表示为两种形式 a.将偏置项参数放在参数矩阵中 b.将偏置项作为单独的参数处理 其中:与均为矩阵形式; 2)如何求解多维线性回归的参数 根据形式2,推导参数的表达式: 其中独立同分布,服从均值为0,方差...原创 2018-05-06 21:13:57 · 712 阅读 · 0 评论 -
决策树
1.决策树 1)决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别; 2)决策树采用自顶向下的递归方法,基本思想是以信息熵为度量构造一颗熵值下降最快的树; 2.信息论 1)熵 熵为信息的期望值,衡量数据的混乱程度,熵越大,混乱程度越高,也就是纯度越低;反之,熵越小,混乱程度越低,纯度越高; 信息定义: 其中,为选择该分类的概率...原创 2018-05-13 14:55:30 · 257 阅读 · 0 评论 -
回归中的相关度和决定系数
1.皮尔逊相关系数(Pearson Correlation Coefficient)1)衡量两个值线性相关强度的量;2)取值范围:[-1,1]正向相关:>0,负向相关:3)定义2.R平方值1)定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例;2)描述:如R平方为0.8,则表示回归关系可以解释因变量80%的变异;即如果自变量不变,则因变量的变异原创 2017-11-13 14:55:29 · 10526 阅读 · 0 评论 -
Kmeans算法
1.归类聚类(clustering)属于非监督学习(unsupervised learning)无类别标记 (class label)2.K-means算法1)Clustering中的经典算法,数据挖掘十大经典算法之一;2)算法接受参数K,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小3)算法原创 2017-11-16 20:16:29 · 338 阅读 · 0 评论 -
非线性回归(逻辑回归)
一.理论1.概率1)定义:对一件事发生的可能性的衡量;2)范围:03)计算方法:a.根据个人置信b.根据历史数据c.根据模拟数据4)条件概率定12.逻辑回归(Logistic Regression)1)在特定的场景中,线性回归不能正确的分类数据2)基本模型定2定33.Cost函数(代价最小化)线性回归:定4原创 2017-11-14 21:55:11 · 5149 阅读 · 0 评论 -
多元回归分析
一.理论 多元回归分析(multiple regression)1.与简单线性回归区别:多个自变量2.多元回归模型3.多元回归方程4.估计多元回归方程5.估计流程(与简单线性回归类似)6.估计方法使得min的值达到最小7.如果自变量有分类型变量(categorical data),如何处理?1)原始数据2)处理原创 2017-11-13 19:09:16 · 4270 阅读 · 0 评论 -
简单线性回归
一.理论篇1.监督学习:回归问题2.简单线性回归3.统计量:描述数据特征1)集中趋势衡量:均值(平均数)mean中位数(median):将数据中的各个数值按照大小顺序排序,局域中间位置的变量;众数(mode):数据中出现次数最多的数2)离散程度衡量方差:(variance)标准差:(standard deviation)4.常原创 2017-11-13 19:08:43 · 341 阅读 · 0 评论 -
神经网络
一.理论篇1.背景以人脑中中的神经网络为启发,历史上有很多版本最著名的算法是1980年的backpropagation2.多层向前神经网络(Multilayer Feed-Forward Neural Network)1)backpropagation被使用在多层先前神经网络上2)输入层(input layer)、隐藏层(hidden layer)、输出层(output l原创 2017-11-10 22:07:33 · 558 阅读 · 0 评论 -
支持向量机(二)
一.理论1.总结1)训练好的模型的算法复杂度由支持向量的个数决定的,而不是由数据的维度决定的。所以SVM不太容易产生overfitting(过拟合)2)SVM训练出来的模型完全依赖于支持向量,即使训练集中所有非支持向量的点被去除,重复训练过程,结果仍然会得到完全一样的模型。3)一个SVM如果训练得出的支持向量个数比较少,SVM训练出的模型比较容易被泛化。2.线性不可分的情况原创 2017-11-04 19:10:36 · 370 阅读 · 0 评论 -
支持向量机(一)
一.理论1.背景1)历史发展:1963年提出,目前的版本是1993年提出2)历史地位:深度学习出现之前(2012),倍认为最成功、表现最好的算法‘2.机器学习的一般框架训练集--->提取特征向量 --->结合一定的算法(分类器:比如决策树、KNN)--->得到结果3.介绍1)例子两类?那条线分割较好?2)SVM寻找区分两类的超平面(hyper plane原创 2017-11-02 22:58:32 · 1446 阅读 · 0 评论 -
KNN
一.理论 1.简介 1)最邻近规则分类KNN,是Cover和Hart在1968年提出了最初的临近算法; 2)分类算法 3)输入基于实例的学习,懒惰学习 2.例子 3.算法详述 1)步骤 为了判别未知实例的类别,以所有已知类别的实例作为参照; 选择参数K 计算未知实例与所有已知实例的距离 选择最近K个已知实例 根据少数服从多数的投原创 2017-10-31 18:50:17 · 4741 阅读 · 2 评论 -
决策树(实践)
决策树实验1.准备数据(E:\MachineLearning-data\AllElectronics.csv)RIDageIncomestudentcredit_ratingClass_buys_computer1youthhighnofairno2youthhighnoexcellentn原创 2017-10-30 00:55:16 · 558 阅读 · 0 评论 -
决策树(理论)
0.机器学习中分类与预测算法的评价指标1)准确率2)速度3)强壮性(算法稳定)4)可规模性(适应于不同规模)5)可解释性(容易解释结果)1.基本流程1)定义:决策树是一个类似于流程图的树结构;其中,每个内部节点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶节点代表类或类分布。树的最顶层是根结点;2)地位:决策树归纳是一类最简单也是最成功的机器学习方原创 2017-10-29 18:14:15 · 849 阅读 · 0 评论 -
机器学习简介
学习目标1 .机器学习基本概念2..机器学习基本原理与常用算法3.普通数据进行机器学习的预处理4.使用Python对机器学习相关包学习5.机器学习算法解决实际问题课程体系1. 课程介绍:机器学习、深度学习、应用展示(计算机视觉、声音识别、自然语言处理)2. 基本概念:训练集、测试集、特征值、监督学习、非监督学习、半监督学习、分原创 2017-10-25 22:31:38 · 358 阅读 · 0 评论 -
Hierarchical clstering 层次聚类
1.假设有N个待聚类的样本,对于层次聚类来说,步骤:1)(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度;2)寻找各个类之间最近的两个类,把它们归为一类(这样类的总数就少了一个)3)重新计算新生成的这个类与各个旧类之间的相似度;4)重复2和3直到所有样本点都归为一类,结束;2.整个聚类过程其实是建立一棵树,在建立的过程中,可以通过在第二步上设置原创 2017-11-14 16:37:39 · 274 阅读 · 0 评论 -
逻辑回归
1.什么是逻辑回归? 逻辑回归本质上是线性回归,在特征得到结果的映射中加入一层函数映射,该函数将特征值线性求和的结果(连续值)映射到0和1上(离散值) 2.逻辑回归为什么选择sigmoid作为映射函数? 1)对逻辑回归模型,目标是最大化条件似然度,对于给定已知x,表示其对应类标记y出现的概率p(y|x;w),通常对于一个有效分类器,w,x代表数据属于正类y=1的置信度,函数(sigmoid)...原创 2018-05-07 14:51:23 · 615 阅读 · 0 评论