机器学习（Coursera吴恩达）（八其他）

最新推荐文章于 2024-02-26 15:25:10 发布

qimo00

最新推荐文章于 2024-02-26 15:25:10 发布

阅读量370

点赞数

分类专栏：机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34551188/article/details/81349485

版权

笔记同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

机器学习（Coursera吴恩达）（八其他）

标签（空格分隔）：机器学习

异常检测(anomaly detection)

异常检测问题：假设有一个新飞机，引擎有特征变量 $x_{test}$ ，异常检测就是我们希望制导这个新的飞机引擎是否有某种异常。
给定数据集 $x^{(1)},x^{(2)}，x^{(3)},...,x^{(m)}$ ，假设数据集是正常的，我们希望制导新的数据 $x_{test}$ 是不是异常的，即测试数据不属于该组数据的几率。
1异常检测.png-84.9kB

这种方式称为密度估计，表达式如下：
$if\ \ p(x)<\epsilon\ \ \ anomaly;p(x)>\epsilon\ \ \ normal$
欺诈检测： $x^{(i)}=用户的第i个活动特征$
模型 $p(x)$ 是其属于一组数据的可能性，通过 $p(x)<\epsilon$ 检测非正常用户。
异常检测主要是用来识别欺骗。

算法

对于给定的数据集 $x^{(1)},x^{(2)}，x^{(3)},...,x^{(m)}$ ，我们要针对每一个特征计算 $\mu$ 和 $\delta^2$ 的估计值。

μ j = 1 m \sum i = 1 m x (i) j

$\mu_j=\frac{1}{m}\sum_{i=1}^mx_j^{(i)}$

δ 2 j = 1 m \sum j = 1 m (x (i) - μ j) 2

$\delta_j^2=\frac{1}{m}\sum_{j=1}^m(x^{(i)}-\mu_j)^2$

一旦我们获得了均值和方差的估计值，给定新的一个训练实例，根据模型计算 $p(x)$ .
当 $p(x)<\epsilon$ 为异常。
2p.png-16kB

3p.png-68.5kB

数据集选择

4数据集.png-121.1kB
还是要用F1选择阈值。判断查准率和查重率。

与监督学习对比

5对比.png-102.4kB

选择特征

对于异常检测算法，我们使用的特征是至关重要的.
异常检测假设特征服从高斯分布，例如使用对数函数： $x = log(x+c)$ ,其中 $c$ 为非负数，或者 $x=x^c$ , c为0-1之间的一个分数。

目的是让数据特征更接近高斯分布。

推荐系统

引入标记：
* $n_u$ 代表用户数
* $n_m$ 代表电影书
* $r(i,j)$ 如果用户j给电影i评分，则为1
* $y^{i,j}$ 用户j给电影i的评分
* $m_j$ 用户j评分过电影的综述

基于内容

1基于内容.png-36.9kB

$\theta^{(j)}$ 表示用户j的参数。( $\in \mathbb{R}^{n+1}$ )
$x^{(i)}$ 电影i的特征
用户j和电影i，我们预测的评分为 $(\theta^{(j)})^Tx^{(i)}$
代价函数针对用户j：

为了学习所有用户，要对所有用户的代价函数求和：
3代价函数求和.png-13kB

然后对这个总的代价函数使用梯度下降法求最优解。
4梯度下降.png-48.8kB

协同过滤

现在，我们如果没有对每一个电影都有评价，也就是没有电影的特征。因为我们很难对每一个电影都设计合适的特征，所以在我们拥有用户评价的情况下，需要对每个电影学习特征。
*协同过滤：是电影特征与用户参数协同学习。前提是我们不知道用户的参数 $\theta$ 也不知道电影的特征 $x$ 。我们拥有的只有用户对电影的评分。
修改优化目标：
5协同滤波优化目标.png-30.7kB

对代价函数求偏导数：（对 $\theta$ 和 $x$ 同时最小化）
6求偏导.png-52.3kB

算法步骤：
1. 初始 $x^{(1)},x^{(2)}，x^{(3)},...,x^{(n_m)};\theta^{(1)},\theta^{(2)}，\theta^{(3)},...,\theta^{(n_u)}$
2. 使用梯度下降法最小化代价函数
3. 在训练完之后，我们预测 $(\theta^{(j)})^Tx^{(i)}$ 为用户j对电影i的预测评分。

大规模学习算法

用学习曲线确定是否我们需要打大训练集。
随机梯度下降法
直接用梯度下降，对大规模系统来说每一次迭代都需要对所有数据进行误差进行累加，那么一次的计算量就会特别大。所以要找更快捷的方法，适用于大规模学习。
小批量梯度下降（Mini-batch）
随机梯度下降收敛

5收敛2.png-132.3kB

6收敛3.png-200.3kB

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习（Coursera吴恩达）（八其他）

机器学习（Coursera吴恩达）（八其他）标签（空格分隔）：机器学习异常检测(anomaly detection)异常检测问题：假设有一个新飞机，引擎有特征变量xtestxtestx_{test}，异常检测就是我们希望制导这个新的飞机引擎是否有某种异常。给定数据集x(1),x(2)，x(3),...,x(m)x(1),x(2)，x(3),...,x(m)x^{(1)}...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。