自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_41313964的博客

原创 Bseline基准预测、zip()、dict()、groupy().agg()、

这个用户或物品普遍高于或低于平均值的差值，我们称为偏置(bias)Baseline目标：找出每个用户普遍高于或低于他人的偏置值A 找出每件物品普遍高于或低于其他物品的偏置值B 我们的目标也就转化为寻找最优的A和B 使用Baseline的算法思想预测评分的步骤如下：计算所有电影的平均评分M（即全局平均评分）计算每个用户评分与平均评分的偏置值A 计算每部电影所接受的评分与平均评分的偏置值B 预测用户对电影的评分：r = M+A+B

2022-03-03 21:06:47 191

原创协同过滤案例以及代码运行遇到的问题

报错：AttributeError: ‘DataFrame’ object has no attribute ‘dtype’错误原因：scikit-learn从0.20.1不再自动修改numpy语法。所以需要养成更加规范的书写习惯解决pairwise_distances(df, metric="jaccard")`修改为pairwise_distances(df.values, metric="jaccard")`from sklearn.metrics import jaccard_simila

2021-12-30 21:44:12 1172

原创个性化推荐系统

一、系统架构1、大数据Lambda架构（1）Lambda系统架构提供了一个结合实时数据和Hadoop预先计算的数据环境和混合平台, 提供一个实时的数据视图（2）分层架构 ----- 批处理层a.数据不可变，可进行任何计算，可水平扩展b.高延迟几分钟~几小时(计算量和数据量不同)c.日志收集Flumed.分布式存储Hadoop hdfs...

2021-12-30 21:11:15 771 1

原创聚类算法学习总结

一、基本理解一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。二、APIklearn.cluster.KMeans(n_clusters=8)参数:n_clusters:开始的聚类中心数量整型，缺省值=8，生成的聚类数，即产生的质心（centroids）数。方法:estimator.fit(x) e...

2021-12-27 20:48:25 1002

原创 ichat模块schedule模块运行遇到的错误

一、报错：<error><ret>1203</ret><message>由于安全原因，此微信号不能使用网页版微信。你可以使用 Windows 版微信或 Mac 版微信登录。Windows 版微信下载地址：https://pc.weixin.qq.com Mac 版微信下载地址：https://mac.weixin.qq.com</message></error>解决方案：pip install itchat-uos二、报错.

2021-12-27 20:09:42 4076

原创集成学习归纳总结

集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成组合预测，因此优于任何一个单分类的做出预测. 弱分类器&强分类器（弱学习器&强学习器）:一个分类器的分类准确在60%-80%，即：比随机预测略好，但准确率却不太高，我们可以称之为“弱分类器”，比如CART（classification and regression tree分类与回归树）。反之，如果分类精度90%以上，则是强分类器。...

2021-12-20 21:41:57 314

原创决策树算法归纳总结

决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。一、熵系统越有序，熵值越低；系统越混乱或者分散，熵值越高。（1）从信息的完整性上进行的描述:当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。（2）从信息的有序性上进行的描述:当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。（3）信息熵假如事件A的分类划分是（A1.

2021-12-19 20:15:53 2712

原创逻辑回归阶段概述

一、逻辑回归1、逻辑回归解决的是二分类问题2、逻辑回归的输入就是线性回归的输出3、激活函数：sigmoid函数回归的结果输入到sigmoid函数当中，输出结果：[0, 1]区间中的一个概率值，默认为0.5为阈值阈值意义（默认阈值为0.5）：因为逻辑回归解决的是二分类的问题，假如分成A和B两个类，如果一个样本的逻辑回归输出为0.6，0.6大于0.5的阈值所以它就是A类别的，所以只要样本的逻辑回归输出大于0.5那么就是A类别，如果样本的逻辑回归输出小于0.5那么就是B类别

2021-12-12 19:27:21 1764

原创线性回归阶段学习总结

一、如何理解线性回归模型简单举个例子：期末总成绩=0.6x 平时成绩+ 0.3 x 期末考试成绩 + 0.1 x 考勤期末总成绩为目标值，平时成绩、期末考试成绩、考勤是特征值，在目标值和特征值之间建立一个关系，这个关系就可以理解为线性模型。1、线性关系：单变量线性关系，在二维平面坐标轴上成直线表示。多变量线性关系：2个特征值则在三位平面上成平面的表示。2、非线性关系二、线性回归的损失和优化1、损失因为我们的预测结果和真实的结果一般都是存在误差的，很难完美的预...

2021-12-11 20:28:55 1621

原创预测facebook签到位置运行过程中遇到的问题

新手学习记录

2021-12-03 17:57:27 1586

原创 K—近邻算法：鸢尾花种类预测

新手初学，学习记录，K-近邻算法的

2021-11-30 23:03:33 556

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除