吴恩达-机器学习
文章平均质量分 81
lizhaoxinLZX
这个作者很懒,什么都没留下…
展开
-
十二(扩展)、SVM关于核函数的补充
吴恩达机器学习笔记——十二、SVM关于核函数的补充1 为什么要用核函数2 怎么应用核函数2.1 核函数反应高纬度空间的几何性质2.2 内积矩阵/核矩阵2.3 一个二分类的例子2.4 核函数应具有的性质2.5 常用的核函数3 Dual RepresentationPS:深入理解核函数需要泛函分析和高等微积分的知识,这里我们做基础了解。1 为什么要用核函数我们使用核函数的目的是:对于在原平面线形不可分的问题,通过核函数映射到高维特征空间,使其两类样本点变得线形可分(可以用一个线形超平面分开)。2 怎么原创 2021-04-17 16:06:43 · 358 阅读 · 0 评论 -
十四、主成分分析PCA
吴恩达机器学习笔记——十四、主成分分析PCA1 概念2 运用主成分分析进行降维的方法3 主成分数量选择4 如何将压缩后的点重新映射回原先的特征空间5 总结主成分分析是一种降维方法,当一个样本的两个维度的特征高度相关时,可以采用降维的方法来减少特征的维度来提高学习速度,减少存储空间使用。1 概念对于将维度从n维降到k维的问题,PCA的实质就是寻找k个n维向量u(1), u(2),…, u(k),(n表示样本的特征维数),令样本点在这些向量方向上的投影误差最小。从上图来看,PCA向量的选取有点像线性回原创 2021-01-21 10:30:54 · 438 阅读 · 0 评论 -
十三、聚类
吴恩达机器学习笔记——十三、聚类1 K-means 聚类2 优化目标3 选取聚类中心4 选取聚类数量4.1 Elbow Method4.2 根据用户实际需要聚类1 K-means 聚类K-means的另一个用处就是用来解决分离不佳的簇的分类问题,例如服装店收集到顾客信息,要为顾客制定S,M,L三种尺码的衣服,每种尺码的衣服尺寸应该如何确定呢?我们可以用K-means来解决。2 优化目标则K-means优化的目标其实就是最小化代价函数:3 选取聚类中心随机选取K个样本点初始化为聚类中心原创 2021-01-20 19:50:36 · 132 阅读 · 0 评论 -
十二、支持向量机SVM
吴恩达机器学习笔记——十二、支持向量机SVM1 优化目标1.1 回顾1.2 代价函数2 惩罚因子/松弛因子C3 核函数3.1 什么是核函数3.2 如何选择标定点3.3 如何选择支持向量机中的参数3.3.1 松弛因子C3.3.2 高斯函数中的σ^2^4 使用SVM5 多分类1 优化目标1.1 回顾在logistics回归中,我们的预测输出模型是:我们希望我们的模型具有以下性能:则测试集中某一样本的代价函数是:如果求总的代价函数,则应该在式子前面加一个Σ求和。我们令z = θTx,则当y =原创 2021-01-20 17:12:28 · 281 阅读 · 0 评论 -
十一、构建大型机器学习模型时的技巧
吴恩达机器学习笔记——十一、构建大型模型时的技巧1 合理选择特征2 要建立合适的误差分析指标3 不对称分类/偏斜类4 数据量问题1 合理选择特征对于文本分类问题,我们选择特征时应该多方面考虑,比如:单词首字母大小写十分认为是两个特征单词词缀不同是否认为是两个单词(student students,deal, dealer)标点符号的特征拼写错误的单词(w4tch,i0s),这是垃圾邮件用来骗过检索系统的一种技巧。邮件地址特征2 要建立合适的误差分析指标最好使用一个数值来评估不同模型针对原创 2021-01-19 17:45:00 · 155 阅读 · 0 评论 -
十、机器学习的实用建议和指导
吴恩达机器学习笔记——十、实用建议和技巧1 前言2 评价算法性能2.1 对于线性回归2.2 对于Logistics回归2 模型选择2.1 确定回归多项式的次数1 前言如果在测试集上误差很大,我们有以下几种方法来尝试减小误差:增大训练集减少使用的特征数量,减少过拟合使用更多的特征(之前取的特征可能不全面)尝试增加多项式特征(x12, x22, x1x2…)减小正则化参数λ增大正则化参数λ但是很多时候选择以上哪一种方法是凭感觉的,这可能会浪费很多时间,以下我们将介绍几种方法,让我们提高效率原创 2021-01-19 15:33:22 · 355 阅读 · 0 评论 -
九、部署自己的神经网络
吴恩达机器学习笔记——九、部署自己的神经网络1 代价函数1.1 符号定义1.2 代价函数定义2 反向传播算法2.1 假设只有一个训练样本的情况2.2 一般情况(m个训练样本)2.3 反向传播的理解1 代价函数此处以解决分类问题为例来研究神经网络的代价函数1.1 符号定义L:神经网络的总层数Sl:第l层的神经元个数K:输出层神经元个数(对于二分类问题,K=1;对于多分类问题,K≥3)δj(l):第l层,第j个神经元的误差aj(l):第l层第j个神经元的激活函数Θij(l):第l-1层的第j个原创 2020-12-31 11:32:09 · 730 阅读 · 0 评论 -
八、神经网络
吴恩达机器学习笔记——八、神经网络为什么要用神经网络神经网络的表示神经元神经网络符号定义向量化神经网络所使用的特征非线性模型例子能实现“与”功能的神经网络能实现“或”功能的神经网络能实现“非”功能的神经网络能实现“同或”功能的神经网络实现多分类为什么要用神经网络用来解决特征太多、参数太多,计算量太大,甚至发生过拟合的问题对于一个只有两个变量的二分类问题,我们可以建立以下的分类边界表达式,并带入Sigmoid函数中,因为变量较少,我们可以很容易找到两个变量组合的一次方项、二次方项、三次方项…。通过梯度下原创 2020-12-30 11:45:02 · 230 阅读 · 0 评论 -
六、分类
吴恩达机器学习笔记——六、分类Logistics回归定义用Logistic函数做二分类决策边界确定参数θ的方法凸函数和凸优化具体操作一些高级优化算法多分类Logistics回归定义Sigmoid function 和 Logistic function是同义词用Logistic函数做二分类假设函数由原先的:改为:则通过Logistics回归,我们可以给出输入样本被分类为1的概率有多大,即由概率的性质,我们可以推出样本被分类为0的概率为:决策边界假设:当h(x) ≤ 0.5原创 2020-12-29 16:13:59 · 152 阅读 · 0 评论 -
四、多元线性回归
吴恩达机器学习笔记——二、多元线性回归符号定义多元线性回归的定义梯度下降法确定参数θ特征缩放学习率特征合并和多项式回归特征合并多项式回归符号定义m:训练集的样本个数n:特征的数量x(i):第i个训练样本的特征向量xj(i):第i个训练样本的第j个特征多元线性回归的定义因特征数不止一个,则此时我们的假设函数变为:其中x和θ可以写作向量格式hθj(x) = θTx梯度下降法确定参数θ发现算法和单特征的线性回归差别并不大特征缩放当两个特征取值的范围差别很大时(什么时候算差距很大由自己经原创 2020-12-29 10:27:36 · 604 阅读 · 0 评论 -
二、线性回归
吴恩达机器学习笔记——二、线性回归符号定义代价函数的定义代价函数的作用梯度下降算法描述:学习率的理解:符号定义m:训练集的样本个数x’s:输入变量/特征y’s:输出变量/特征(x, y):一个训练样本(x(i), y(i)):第i个训练样本h:假设函数,h maps from x’s to y’s= 表示判断:= 表示赋值代价函数的定义我们要做regression,那么应该最小化平均误差值,即优化函数为:所以我们定义代价函数J(θ0, θ1)为:代价函数的作用假设我们需要原创 2020-12-28 10:41:02 · 143 阅读 · 0 评论 -
十五、异常检测
吴恩达机器学习笔记——十五、异常检测1 问题背景2 算法3 评估异常检测算法4 异常检测与有监督分类比较5 特征选择的问题6 多变量高斯分布6.1 问题引入6.2 多元高斯分布6.2 多元高斯分布在异常检测中的的应用1 问题背景对于一些没有标签的样本,例如制造厂中出厂的发动机,计算中心的计算机,样本量很大,且绝大多数都是正常工作的。我们将其特征提取出来,并计算其分布函数,对于一个新的样本xtest,也提取其特征,若xtest出现的概率小于阈值ε,则认为该样本是异常的。2 算法3 评估异常检测算法原创 2021-01-21 16:30:53 · 247 阅读 · 0 评论 -
十六、推荐系统
吴恩达机器学习笔记——十六、推荐系统1 符号定义2 基于内容的推荐算法2.1 模型准备2.2 求解θ^(j)^的方法3 协同过滤算法3.1 同时求出x和θ4 均值归一化1 符号定义nu:用户数量。n1表示第一个用户nm:测评的产品数量r(i, j):判断第j个用户是否对第i个产品进行了打分。r(i, j)=0或1y(i,j):用户j对第i个电影的评分(只有r(i, j)=1时才有这一项)n:测评的产品的特征数量m(j):用户j测评的产品数量2 基于内容的推荐算法2.1 模型准备本节一4个原创 2021-01-21 20:30:13 · 206 阅读 · 0 评论