机器学习笔记
知了不知蝉鸣惊
AI
展开
-
KNN K近邻算法
简述K近邻算法:寻找数据集中k个离输入样本x最近的数据点,根据k个数据点投票表决x的类别。三要素k 的选取距离度量决策判决规则k 的 选取对结果的影响较小的k意味着只有较近的点才会对预测产生影响,会减少近似误差,增加估计误差,但容易发生过拟合。k较大,可以再一定范围内减少学习的估计误差 但是会增加学习的近似误差。knn最大的缺点是当数据不平衡时,样本的k个邻居中大样本容量类占...原创 2019-03-18 21:37:28 · 208 阅读 · 0 评论 -
激活函数知识点汇总
https://blog.csdn.net/u011684265/article/details/78039280relu 函数relu(x) = max ( x, 0 )为什么使用relu?第一,采用sigmoid等函数,算激活函数时候(指数运算),计算量大,反向传播求误差梯度时,求导涉及除法,计算量相当大,而采用Relu激活函数,整个过程的计算量节省很多。第二,对于深层网络,...原创 2019-03-25 17:05:28 · 779 阅读 · 1 评论 -
过拟合产生原因和解决
通常过拟合由以下三种原因产生:假设过于复杂:注意奥卡姆剃刀原则数据存在很多噪音:数据规模太小:过拟合的解决方法通常有:early stopping:采用交叉验证,设置一个k值,当连续k轮验证集上的指标都不上升时,停止训练数据集扩增:从数据源头采集更多数据;数据增强:复制原有的数据并加上随机噪声。图像可以旋转,改变尺寸等;重复采样;根据当前估计数据分布参数,使用该分...原创 2019-03-15 14:51:02 · 1132 阅读 · 0 评论 -
L1正则化和L2正则化
文章目录1. L1正则化和L2正则化:2. L1正则化和L2正则化的作用:3. 一些问题理解L1正则化的稀疏作用如何理解?L2正则化为什么不会稀疏?L2正则化为何可以防止过拟合?L1正则化在哪种情况下可以防止过拟合?1. L1正则化和L2正则化:L1正则化,又称Lasso Regression,是指权值向量w中各个元素的绝对值之和L2正则化,又称Ridge Regression,是指权值...原创 2019-03-15 14:31:35 · 2224 阅读 · 0 评论 -
K-means 算法 Kmeans++ 二分Kmeans
1. 算法原理kmeans的计算方法如下:随机选取k个中心点遍历所有数据,将每个数据划分到最近的中心点中计算每个聚类的平均值,并作为新的中心点重复 2-3 ,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代或 最小化平方误差。2. 最小化平方误差法3. kmeans的优缺点4. 代码...原创 2019-03-09 11:14:17 · 1945 阅读 · 0 评论 -
信息论复习笔记(1):信息熵、条件熵,联合熵,互信息、交叉熵,相对熵
1.1 信息和信息的测量1.1.1 什么是信息信息是对接收者来说是一种不确切的知识,可以认为是一种不确定性的度量。比如下面的例子,假设随机变量 X= ‘出生年份’:1) I will be one year older next year. ----> No information2) I was born in 1993. ----> little informa...原创 2018-11-23 14:28:14 · 2141 阅读 · 0 评论 -
PCA 主成分分析 KPCA
主成分分析 PCA1. 结论1. 向量的投影表示:向量 x 在单位向量 e 上的投影长度值 eTxe^{T }xeTx,投影向量可以表示 eTxee^T x eeTxe 。所以求向量 a 在另一个向量 b 的投影值可以先求向量 b 的单位向量。(画图列出cos公式,求单位向量公式可理解)2. PCA算法推导思想PCA算法将寻找数据里最主要的方面来代替原始数据,从而实现降维。具体地,就是...原创 2018-11-24 17:34:51 · 2670 阅读 · 0 评论 -
信息熵、交叉熵公式的理解
一 信息熵的意义:代表信息量(不确定度)的大小。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。二 信息熵的公式定义:H(X)=E[log2P(X)−1]=∑iP(xi)∗log2P(xi)−1H(X)=E[log2P(X)−1]=∑iP(xi)∗log2P(xi)−1H(X) = E [ log_2 P(X)^{-1} ] = \sum_{i}P(x_i) *lo...原创 2018-05-14 15:57:11 · 7939 阅读 · 0 评论 -
李航·《统计学习方法》学习笔记
第一章 统计学习的方法概论1 统计学习概述统计学习的过程统计学习的分类监督学习的分类1 生成方法与判别模方法11 生成方法11 判别方法2 分类问题标注问题和回归问题21 分类问题22 标注问题23 回归问题2 模型3 策略31 损失函数32 经验损失期望损失和结构损失33 经验风险最小化结构风险最小化和目标函数4 算法5 模型评估和模型选择51 模型评估21 模型原创 2017-12-03 15:12:45 · 6617 阅读 · 0 评论