回归分类聚类推荐

回归(房价预测,股市预测等):线性回归,损失函数
什么时候用回归:
优化算法:RSS,梯度下降,坐标递降
在数据中拟合一条线,用训练集计算误差平方和,迭代不断调整权重,找到最小的训练损失,从而得到最能拟合数据的线。
分类(垃圾邮件分类,话题分类,语义分析等):分类器——线性分类器(输出是输入的权值的简单的求和,根据输出做决策判断),逻辑回归。
什么时候用分类:

决策边界:两个权值是面,三个权值是三维平面,多个权值是超平面。
衡量分类效果:错误率和正确率,正确或错误的数量占总测试集的比率。
偏差:训练集越大,偏差越小。
情绪分析:找到单词的权重,输出结果和准确结果比较的到模型的准确率,调整权重。
FN:真的被预测为假
FP:假的被预测为真
积极消极评价

聚类、相似度(检索感兴趣文档、图片搜索、病人分组、产品推荐):词袋模型(表示文档,单纯考虑单词在文档中出现的次数)k-means
计算两篇文章的相似度:计算两篇文章中单词统计向量对应位置的元素乘积,结果大小表示相似度,同时出现一个问题即结果更倾向于长文章,文章越长,出现次数越多,相似度越大。这个问题用归一化解决,

计算向量范数:计算向量中元素的平方和,再取平方根。
那么如何确定权重问题:TF—IDF(词频—逆向文件频率法)常用加权技术,用来衡量某个词条对一篇文章或一份文件的重要程度,重要性与在该文章中出现的次数成正比,与在语料库中出现的频率成反比,滤掉常见词,保留关键词。
词频(TF)=该词文章中出现的次数/该文章中的总词数
在这里插入图片描述

IDF计算方法为:
在这里插入图片描述
分子是语料库中的文件总数,分母是包含目标词的文件数,通常情况下分母要加1,这是为了避免生僻词出现在文件中的次数为0的情况。
两者相乘就是TF-IDF

相似文章推荐:最近邻域搜索
k-means:度量标准是看与集群中心的距离,需提前给定最终集群数量。1.初始化集群中心的位置
2.把数据点分给最近的集群中心(沃罗诺伊镶嵌算法)
3.修正集群中心位置
4.重复2,3两步直到结果收敛
聚类算法工作流程:拿到数据,某种方法进行表示(单词统计量、TF-IDF、二元、三元词组),聚类算法输出集群标签(k-means)迭代更新集群中心,通过观测点到集群中心距离。
映射规约:

协同过滤系统(推荐系统)
预测用户对没看过电影的评价,定义两个向量,一个是电影的不同类型,一个是用户对这几种类型的喜欢程度,做乘法相加。根据结果对电影进行排序,推荐预测评价最高的电影,和两篇文章预测相似度方法类似
矩阵因子分解模型:通过把矩阵因式分解,逼近它本身。
矩阵填充:
相关算法:,冷启动问题无法解决,新用户新电影没有数据可用
召回率:喜欢的当中有多少推荐的
精度:推荐系统推荐的当中又多少喜欢的(关注范围有限情况下的测度)
如何使召唤率最大:推荐所有物品,但此时精度最小
精度-召回率曲线:锯齿状下降的曲线
评价最好的算法:根据精度-召回率曲线下方面积,越大越好。

迁移学习:在一个数据集上学习的特征能被迁移到新的任务当中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值