机器学习(第九周)--异常检测和推荐系统

异常检测

异常检测(Anomaly detection)问题 :

 给定图中的 这个训练集 如果你建立了一个模型,你将很可能发现部分点很可能发现模型p(x) 将会认为 在中心区域的这些点有很大的概率值,而稍微远离中心区域的点概率会小一些 更远的地方的点 它们的概率将更小 这外面的点 和这外面的点 将成为异常点

异常监测应用:

1、质量控制测试(QA)

2、欺诈监测

3、数据中心的计算机监控


使用高斯分布密度函数进行预测



异常检测值算法评价:

1、把数据集分成训练集、交叉验证集、和测试集(比例按照,60:20:20)

2、训练集按照无监督学习方式,拟合高斯分布函数

3、交叉验证集上设定分类标记进行验证

4、在测试集上验证交叉验证分类结果

5、分类算法是有偏斜的分类,会存在严重的偏斜,根据分类结果计算F1-score,根据数值评价判断分类模型拟合效果

异常检测算法与监督算法对比

1、异常检测算法中正样本数量较少(甚至没有),存在严重的偏斜,存在大量的负样本

监督算法中存在大量正样本和负样本

2、异常监测样本虽然也学习了正样本和负样本,在未来预测中可能会遇到其他特征的正样本

监督算法中预测的正样本和训练集的特征会相对较为接近

如下图:



异常检测算法选取变量

单独一个变量表现如果不是近似服从高斯分布,可以尝试对变量进行转换,最终近似服从高斯分布,如下图



异常检测方差分析

方差较大,可以尝试通过多项式的方式变幻,增加更多的特征值,进一步增大模型对样本拟合程度



多元高斯分布如下:




多元高斯分布在异常检测中应用如下:



原始高斯分布模型与多元高斯分布模型关系:

高斯分布模型是多元分布模型中的一种特例:在协方差对角矩阵的情况下的特例,图形表示如下



高斯分布异常检测和多元高斯分异常检测对比:

1、高斯分布捕捉变量间异常效果相对较差,如果想要检验则需要手动建立新的变量值;多元高斯分布能够很好的捕捉到变量间关系导致的异常结果,

2、高斯分布计算量相对较小;多元高斯分布计算量相对较大,计算量是高斯分布的n倍

3、高斯分布样本量较小的情况下也能很好的运行;多元高斯分布严格要求样本量大于特征值数量,经验判断样本量要大于10倍特征值



推荐系统

1、推荐系统是在科技公司用应用很广泛的一种算法,如网站产品推荐、电影推荐等等

2、推荐系统是一种可以可以学习特征特性,建立一个优秀的推荐系统可以做到帮助我们自动选择特征值

对于已经给定特征值的推荐系统算法就是线性模型的一种扩展,在给缺失值预测一个返回值算法如下:



参数θ计算方法如下:



给定用户的评分分值,可以学习特征值



根据以上两个算法给定一组起始的随机数θ,反复迭代达到收敛后就可以得到最终的特征值以及θ,这就是协同过滤算法的基本原理

协同过滤算法优化成两组参数值的算法,算法如下:



计算参数θ和特征值x的公式如下:



协同过滤算法的向量实现



推荐给用户对于产品的模型如下

对于评分归一化变化,可以避免某个用户全部未评分,预测的值全部为0的情况



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值