自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Bseline基准预测、zip()、dict()、groupy().agg()、

这个用户或物品普遍高于或低于平均值的差值,我们称为偏置(bias)Baseline目标: 找出每个用户普遍高于或低于他人的偏置值A 找出每件物品普遍高于或低于其他物品的偏置值B 我们的目标也就转化为寻找最优的A和B 使用Baseline的算法思想预测评分的步骤如下: 计算所有电影的平均评分M(即全局平均评分) 计算每个用户评分与平均评分的偏置值A 计算每部电影所接受的评分与平均评分的偏置值​B 预测用户对电影的评分:r = M+A+B

2022-03-03 21:06:47 184

原创 协同过滤案例以及代码运行遇到的问题

报错:AttributeError: ‘DataFrame’ object has no attribute ‘dtype’错误原因:scikit-learn从0.20.1不再自动修改numpy语法。所以需要养成更加规范的书写习惯解决pairwise_distances(df, metric="jaccard")`修改为pairwise_distances(df.values, metric="jaccard")`from sklearn.metrics import jaccard_simila

2021-12-30 21:44:12 1167

原创 个性化推荐系统

一、系统架构1、大数据Lambda架构(1)Lambda系统架构提供了一个结合实时数据和Hadoop预先计算的数据环境和混合平台, 提供一个实时的数据视图(2)分层架构 ----- 批处理层a.数据不可变,可进行任何计算,可水平扩展b.高延迟 几分钟~几小时(计算量和数据量不同)c.日志收集Flumed.分布式存储Hadoop hdfs...

2021-12-30 21:11:15 768 1

原创 聚类算法学习总结

一、基本理解 一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。二、APIklearn.cluster.KMeans(n_clusters=8)参数:n_clusters:开始的聚类中心数量整型,缺省值=8,生成的聚类数,即产生的质心(centroids)数。方法:estimator.fit(x) e...

2021-12-27 20:48:25 995

原创 ichat模块schedule模块运行遇到的错误

一、报错:<error><ret>1203</ret><message>由于安全原因,此微信号不能使用网页版微信。你可以使用 Windows 版微信或 Mac 版微信登录。Windows 版微信下载地址:https://pc.weixin.qq.com Mac 版微信下载地址:https://mac.weixin.qq.com</message></error>解决方案:pip install itchat-uos二、报错.

2021-12-27 20:09:42 4023

原创 集成学习归纳总结

集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测. 弱分类器&强分类器(弱学习器&强学习器):一个分类器的分类准确在60%-80%,即:比随机预测略好,但准确率却不太高,我们可以称之为“弱分类器”,比如CART(classification and regression tree分类与回归树)。反之,如果分类精度90%以上,则是强分类器。...

2021-12-20 21:41:57 305

原创 决策树算法归纳总结

决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。一、熵系统越有序,熵值越低;系统越混乱或者分散,熵值越高。(1)从信息的完整性上进行的描述:当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。(2)从信息的有序性上进行的描述:当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。(3)信息熵假如事件A的分类划分是(A1.

2021-12-19 20:15:53 2678

原创 逻辑回归阶段概述

一、逻辑回归1、逻辑回归解决的是二分类问题2、逻辑回归的输入就是线性回归的输出3、激活函数:sigmoid函数回归的结果输入到sigmoid函数当中,输出结果:[0, 1]区间中的一个概率值,默认为0.5为阈值阈值意义(默认阈值为0.5):因为逻辑回归解决的是二分类的问题,假如分成A和B两个类,如果一个样本的逻辑回归输出为0.6,0.6大于0.5的阈值所以它就是A类别的,所以只要样本的逻辑回归输出大于0.5那么就是A类别,如果样本的逻辑回归输出小于0.5那么就是B类别

2021-12-12 19:27:21 1760

原创 线性回归阶段学习总结

一、如何理解线性回归模型简单举个例子:期末总成绩=0.6x 平时成绩+ 0.3 x 期末考试成绩 + 0.1 x 考勤期末总成绩为目标值,平时成绩、期末考试成绩、考勤是特征值,在目标值和特征值之间建立一个关系,这个关系就可以理解为线性模型。1、线性关系:单变量线性关系,在二维平面坐标轴上成直线表示。多变量线性关系:2个特征值则在三位平面上成平面的表示。2、非线性关系二、线性回归的损失和优化1、损失 因为我们的预测结果和真实的结果一般都是存在误差的,很难完美的预...

2021-12-11 20:28:55 1617

原创 预测facebook签到位置运行过程中遇到的问题

新手学习记录

2021-12-03 17:57:27 1562

原创 K—近邻算法:鸢尾花种类预测

新手初学,学习记录,K-近邻算法的

2021-11-30 23:03:33 554

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除