吴恩达机器学习-7

坐山观狗斗

已于 2024-03-06 23:17:14 修改

阅读量1.1k

点赞数 37

分类专栏：网课笔记-机器学习文章标签：机器学习人工智能

于 2024-03-06 23:16:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50959806/article/details/136502208

版权

网课笔记-机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

p116-p132

异常检测流程

1.假设我们有10000个好的，20个坏的。选择6000个好的作为训练集，但是不打标签，不告诉算法这是好的还是坏的。然后选择2000好+10坏作为交叉验证集，2000好+10坏作为测试集。

2.在训练集上可以得到特征的正态分布曲线，根据这个结果可以在cv（验证集）上找到异常，同样也可以在测试集上找到。

3.注意，这仍然是无监督学习算法，因为训练集上没有标签。

4.另一种方法：如果坏的数量很少，那么不再使用测试集，把全部异常都放在验证集上。数据集很小的时候不得不这样做。

我的理解：相当于用无标注训练集训练出一个特定均值和方差的正态分布，并默认两端是不正常的，再通过验证集来调整阈值。

异常检测和监督学习对比

1.当异常值（正例样本）非常少时，使用异常检测。监督学习往往有大量标记好的正负两种样本。

2.当异常千奇百怪（比如今天是太热导致发动机坏了，明天是振动太慢导致发动机坏了。。。）这时候选择异常检测：我的理解就是异常检测是拿正常的发动机特征进行训练，算法认得出什么是正常，其他千奇百怪的异常都叫异常。所以当出现一种全新的故障方式，它也能标记出异常（毕竟和它学过的正常值长得不一样）。相反，监督学习会有足够多的异常值来让它知道异常长什么样。一个正向学习，一个反向排除。

选择什么特征

1.为无监督学习选择的特征，需要是高斯分布的。如果不是，那么把它调整成高斯分布。

2.例子：监控计算机有没有异常，通常我们会从内存占用、cpu负荷、磁盘读写速度、网络流量来看，但是当你发现了有这样一台计算机，它具有高cpu负荷和低网络流量，都在正常值内，但是计算机异常了，这时我们可以通过旧的特征来建立新特征：CPU负荷/网络流量。

电影推荐系统（好抽象）

协同过滤算法

这里的（w，b）为每个用户对于电影类型的偏好，x是电影的特征（比如爱情片、恐怖片）标签y为用户对电影的评分。通过成本函数J来求w、b、x。与前文线性回归中不一样的是，这里的电影特征也是计算得来的。

梯度下降法求偏导时会过滤掉其他因素。

均值归一化

这个矩阵的行表示电影（5部），列表示每个用户对五部电影的评分。“？”表示用户没有打分。

进行均值归一化就是获取所有分，并计算每部电影的评价得分。注意，没打分的就不参与计算。

使用原始数据减去平均值得到的矩阵，拿来作为y，来计算w、x、b

最终得分会加上平均值μ

当新用户加入时，使用上面的参数进行计算，这样它的初始值就是群众的平均值了。

寻找相关特征

如果有一新电影，没什么人评价，或者来了个新用户，没评价过电影→冷启动。

对于新电影，可以估计导演、经费等等，对于新用户，可以了解他的年龄、性别等等。

基于内容过滤法

协同过滤中，一般会根据您给出相似评分的用户的评分向您推荐电影。

内容过滤中，寻找一些用户和电影的特征来匹配用户。

1.获取用户特征：输入用户信息（国籍、年龄、性别等），通过神经网络计算得到一个特征向量，即“电影偏好度”，比如[0.9,0.2,0.5]，其中0.9表示用户对爱情片的喜好度，0.2是对恐怖片的喜好度等等。

2.相似的，输入电影的特征，得出描述电影的向量：

比如是[0.2,0.9,0.6]表示电影有0.2的爱情片成分，0.9的恐怖片成分。

3.通过两个向量求点积，得出评分，就可以推测出用户对电影的评分。

成本函数：

PCA降维

现在有两个特征x1、x2，这时候我想选择一个新轴，成为z，如何让它来替换x1、x2。

首先在使用pca之前，先把特征均值归一化（让和为0，保留偏移）。

例：房屋特征包含大小和卧室数量，通过特征缩放和归一化后，可视化为下图：

现在要找出一个z轴替换掉x1和x2轴。下图是一个例子：

选择的这个z轴中，我们找到每个点在z上的投影作为压缩的特征。

更好的选择：

这个轴称为主成分轴（拟合的直线吗）

理解：

当z轴（蓝）这样选择时

每个数据在z的投影上是这样的：

可见有些都叠在一起了。

我们把线扭一扭：

这样每个数据在z轴的投影是：保留了更多特征。

疑问：你这个算法得保证x1、x2之间有线性的关系才行吧？要是完全随机分布你咋办捏？

和线性回归的区别？

坐山观狗斗

关注

37
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习-7

p116-132
复制链接

扫一扫

专栏目录

坐山观狗斗

CSDN认证博客专家 CSDN认证企业博客

码龄4年

41: 原创

9303: 周排名

3万+: 总排名

2万+: 访问

: 等级

1021: 积分

483: 粉丝

612: 获赞

21: 评论

522: 收藏

私信

关注

热门文章

分类专栏

最新评论

韩顺平0基础学java——第24天
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
韩顺平0基础学java——第22天
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
韩顺平0基础学Java——第13天
Jietewang: 哈哈也是韩sir B站高徒
韩顺平0基础学Java——第10天
CSDN-Ada助手: 恭喜您第20篇博客《韩顺平0基础学Java——第10天》如期发布！您的刻苦努力和持之以恒让我深受启发。接下来，或许可以考虑分享一些自己的学习心得和体会，或者结合实际案例展示Java在项目中的应用，这样能让读者更加深入地了解Java的魅力。期待您的下一篇作品！愿您在学习和创作的路上越走越远，谦虚地不断进步。
韩顺平0基础学Java——第9天
普通网友: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。