机器学习
什么都一般的咸鱼
一个正在入门深度学习的暂时头发茂盛的小白。
更博很慢很慢,博文以实用和工程能力为主,致力于成为一位工程能力特别特别特别强的咸鱼。
欢迎关注,有什么问题我会尽力去回答帮助。
GitHub:https://github.com/ooooxianyu
展开
-
[推荐系统 06] 基于深度学习推荐系统——DeepFM模型
基于深度学习推荐系统1. 基础知识(1)one-hot编码带来的问题我们知道,当我们遇到标签类/离散/类别型的数据,我们通过会把它变成one-hot编码。但是这样会使得数据特别庞大而且稀疏。而广告计算和推荐算法很多数据的特征是非常多的,而且大部分会是离散的数据,这样一来数据的稀疏性就会变得非常大。因此,FM主要就是为了解决数据稀疏的情况下,特征怎样组合的问题。(2)因式分解机(FM)因式分解机是一种基于LR模型的高效的学习特征间相互关系;对于因子分解机FM来说,最大的特点是对于稀疏的数据具有原创 2020-07-10 20:23:21 · 718 阅读 · 0 评论 -
[推荐系统 05] 基于图的推荐算法
基于图的推荐算法我们很容易就能想到啊,这个推荐的原理实际就是,用户和物品之间的关系。那么用户和物品就可以用图模型来表示。例如用用户行为数据来构造用户物品的二分图。用户A连接物品1表示,用户A对物品1产生过行为。有了二分图后,我们的任务实际就转化成了在二分图上给用户进行个性化推荐。推荐的任务又可以转为度量用户顶点与用户没有直接相连的物品节点在图上的相关性,相关性越高的物品在推荐列表中的权重就越高。如何度量两个顶点之间的相关性?顶点的相关性主要取决于下面三个因素:① 两个顶点之间的路径数;② 两个原创 2020-07-10 13:57:48 · 739 阅读 · 0 评论 -
[推荐系统 04] 推荐系统冷启动问题
看完了尚硅谷机器学习和推荐系统项目实战教程,又觉得基础部分学的太散了。没有把大体的体系学好。因此,找来了 项亮的推荐系统实践一书。打算把知识体系梳理一遍。推荐系统冷启动问题1. 什么是冷启动问题?从前面我们知道了,基于协同过滤的推荐系统是根据用户历史行为和兴趣预测用户未来可能的行为和兴趣,所以推荐系统是在大量用户数据的基础上,才能构建的。但是一般情况下,一个新系统/软件的开发,是没有那么多用户的。相反,为了提高新用户的体验,我们就想要引入推荐系统。那么这样就存在一个问题,系统应该根据什么模式来推荐用原创 2020-07-10 13:25:09 · 330 阅读 · 0 评论 -
[推荐系统 03] 推荐系统中的评估指标
推荐系统中的评估指标(1) 用户满意度:推荐系统最重要的参与者就是用户,因此是否使用户满意是划定推荐系统是否答辩的一个关键。用户满意度无法通过离线计算,必须通过用户调查或者在线实验。(2)预测准确度:① 评分预测:均方根误差(RMSE)、平均绝对误差(MAE)。② TopN推荐:准确率、召回率。(3)覆盖率:描述一个推荐系统对物品长尾的发掘能力。内容提供商会比较的关系这个指标,因为内容提供商肯定希望自己的物品被推荐的每一个用户,即100%覆盖率。一个好的推荐系统不仅需要有比较高的用户原创 2020-07-09 20:15:14 · 522 阅读 · 0 评论 -
[推荐系统 02] 基于协同过滤的推荐算法
推荐系统 - 初识 01笔记链接基于协同过滤(CF)的推荐算法基于近邻的CF算法:1. 基于用户的协同过滤(User-CF)基本原理:根据所有用户对物品的偏好,发现与当前用户口味和偏好相似的用户群,并推荐近邻所偏好的物品。采用KNN的算法;基于K个邻居的历史偏好信息,得到偏好相同的用户群,并为用户进行推荐。用户A,对商品A,B,E的评价都很高,但是对C,D的评价很低,用户B,对商品A,E的评价很高,但是对C,D评价很低。那么系统就可能给用户B推荐商品B。因为A和B的行为相似。2. 基于物品原创 2020-07-09 19:24:03 · 487 阅读 · 0 评论 -
机器学习 - 基础笔记复习(自问自答)
机器学习 - 基础笔记复习1. 什么是特征工程?特征工程,顾名思义,对特征进行处理。那么什么是特征呢,特征就是事物(即机器学习内的数据)突出性质的表现,特征是区分事物的关键。例如,我们如何区分一个人,肯定通过不同样貌特征的不同,就能区分出不同的人之间的不同。但是由于一个人有一百个特征,一百个人就可能会有一万个特征。特征是非常庞大复杂的,如果我们要让机器学会认识特征,我们就要把特征处理得简单一些。所以特征工程的主要目的就是对特征进行预处理,包括数据预处理,特征选择,特征降维。数据预处理:我们在给机器传原创 2020-07-08 10:20:07 · 549 阅读 · 0 评论 -
[机器学习 05] 无监督学习(聚类,降维)-sklearn
无监督学习1. 聚类2. 降维原创 2020-07-01 11:37:16 · 996 阅读 · 0 评论 -
[机器学习 04] 树,集成学习-sklearn
树特点:树结构清晰,而且运算快。关键问题:树的构建。缺点:树的能力太强,一般都会过拟合。——特征一层一层划分,可以把所有特征分完,因此所以有的特征都会被分到最细,因此会造成数据过拟合。也因此,树可以剪枝。1. 决策树(1)决策树是一种分类树。(2)基础知识:① 熵:信息的不确定性。(熵的最大化,可以达到最大的探索能力,即信息量越大,遇到的可能性越多。)② 条件熵:再已知随机变量X的条件下,随机变量Y的不确定性。就是说,我们在不知道任何事情的情况下,不确定性最大,也就是信息量最多,当某事发生原创 2020-06-30 20:52:19 · 254 阅读 · 0 评论 -
[机器学习 02] 分类算法-sklearn
机器学习:分类1. K近邻 (KNN)原理:距离预测点最近的前K个点中最多的类别作为该预测点的类别。(距离:欧式距离)算法简单,但是计算耗时。在数据量多,特征高阶的情况下,性能低且效果不好。2. KD-Tree简化KNN的计算。(KNN需要遍历所有的点取得所有点的距离。)KD-Tree用二叉排序树,点之间的距离只需要通过在二次查找树上做查询。缩小了时间复杂度。O(logn)树的构建和查找可看这篇文章回溯:检查其父节点核兄弟节点与该查找到叶子节点的距离相比较,在有限次回溯后找到最近的点。3原创 2020-06-22 20:24:12 · 270 阅读 · 0 评论 -
[机器学习 01] 回归算法-sklearn
机器学习:回归1. 线性回归有一组数据:(x,y)找出一个线性方程,使得数据到线上的距离总和最小。距离最小化:梯度下降法/最小二乘法……对于普通最小二乘的系数估计问题,其依赖于模型各项的相互独立性。当各项是相关的,且设计矩阵的各列近似线性相关,那么,设计矩阵会趋向于奇异矩阵,这种特性导致最小二乘估计对于随机误差非常敏感,可能产生很大的方差,W过大,就会导致模型过拟合。(即,输入的数据的特征之间,越独立越好)2. 岭回归加了个L2正则项来约束w,使得w尽量小。(防止过拟合)α是正则项的系数。原创 2020-06-22 16:26:27 · 1215 阅读 · 0 评论 -
[机器学习 03] 数据预处理-sklearn
数据预处理1. 观察数据(1)明确数据有多少特征/属性,哪些是连续的,哪些是类别(离散)的。(2)检测数据有无缺失,对缺失的特征选择恰当的方式进行填补,使得数据完整。(3)对连续的数值型特征进行标准化,使得均值为0, 方差为1.(4)对类别型的特征进行one-hot编码。(5)将需要转换成类别型的连续型数据进行二值化。(6)为了防止过拟合或者其他原因,考虑是否对数据进行正则化。(7)在对数据进行初探以后,发现效果不佳,可以尝试使用多项式方法,寻找非线性的关系。(8)根据实际问题分析是否需要原创 2020-06-22 20:51:53 · 262 阅读 · 0 评论