回归分类聚类推荐

最新推荐文章于 2022-12-15 20:00:00 发布

MM-Master

最新推荐文章于 2022-12-15 20:00:00 发布

阅读量199

点赞数

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/qq_39000526/article/details/109024536

版权

回归（房价预测，股市预测等）：线性回归，损失函数
什么时候用回归：
优化算法：RSS，梯度下降，坐标递降
在数据中拟合一条线，用训练集计算误差平方和，迭代不断调整权重，找到最小的训练损失，从而得到最能拟合数据的线。
分类（垃圾邮件分类，话题分类，语义分析等）：分类器——线性分类器（输出是输入的权值的简单的求和，根据输出做决策判断），逻辑回归。
什么时候用分类：

决策边界：两个权值是面，三个权值是三维平面，多个权值是超平面。
衡量分类效果：错误率和正确率，正确或错误的数量占总测试集的比率。
偏差：训练集越大，偏差越小。
情绪分析：找到单词的权重，输出结果和准确结果比较的到模型的准确率，调整权重。
FN:真的被预测为假
FP:假的被预测为真
积极消极评价

聚类、相似度（检索感兴趣文档、图片搜索、病人分组、产品推荐）：词袋模型（表示文档，单纯考虑单词在文档中出现的次数）k-means
计算两篇文章的相似度：计算两篇文章中单词统计向量对应位置的元素乘积，结果大小表示相似度，同时出现一个问题即结果更倾向于长文章，文章越长，出现次数越多，相似度越大。这个问题用归一化解决，

计算向量范数：计算向量中元素的平方和，再取平方根。
那么如何确定权重问题：TF—IDF（词频—逆向文件频率法）常用加权技术，用来衡量某个词条对一篇文章或一份文件的重要程度，重要性与在该文章中出现的次数成正比，与在语料库中出现的频率成反比，滤掉常见词，保留关键词。
词频（TF）=该词文章中出现的次数/该文章中的总词数
在这里插入图片描述

IDF计算方法为：
在这里插入图片描述
分子是语料库中的文件总数，分母是包含目标词的文件数，通常情况下分母要加1，这是为了避免生僻词出现在文件中的次数为0的情况。
两者相乘就是TF-IDF

相似文章推荐：最近邻域搜索
k-means:度量标准是看与集群中心的距离，需提前给定最终集群数量。1.初始化集群中心的位置
2.把数据点分给最近的集群中心（沃罗诺伊镶嵌算法）
3.修正集群中心位置
4.重复2，3两步直到结果收敛
聚类算法工作流程：拿到数据，某种方法进行表示（单词统计量、TF-IDF、二元、三元词组），聚类算法输出集群标签（k-means）迭代更新集群中心，通过观测点到集群中心距离。
映射规约：

协同过滤系统（推荐系统）：
预测用户对没看过电影的评价，定义两个向量，一个是电影的不同类型，一个是用户对这几种类型的喜欢程度，做乘法相加。根据结果对电影进行排序，推荐预测评价最高的电影，和两篇文章预测相似度方法类似
矩阵因子分解模型：通过把矩阵因式分解，逼近它本身。
矩阵填充：
相关算法：，冷启动问题无法解决，新用户新电影没有数据可用
召回率：喜欢的当中有多少推荐的
精度：推荐系统推荐的当中又多少喜欢的（关注范围有限情况下的测度）
如何使召唤率最大：推荐所有物品，但此时精度最小
精度-召回率曲线：锯齿状下降的曲线
评价最好的算法：根据精度-召回率曲线下方面积，越大越好。

迁移学习：在一个数据集上学习的特征能被迁移到新的任务当中。