![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习与算法
文章平均质量分 66
算法相关
大数据面壁者
大数据相关知识分享,框架底层原理机制,生产学习中遇到的相关问题分享,共同学习,共同进步。
展开
-
初次使用anaconda安装tensorflow的心路历程
初次使用anaconda安装tensorflow的心路历程anaconda已安装完毕第一次尝试:直接在base中安装tensorflow,conda install tensorflow,等待数分钟后无果,报错(具体错误未记录)。查找原因:安装anaconda时默认安装的是python3.7,需要重新创建虚拟环境第二次尝试创建虚拟环境:conda create -n tensorflow python=3.7进入tensorflow安装环境:activate tensorflow安装ten原创 2021-02-17 15:24:45 · 348 阅读 · 6 评论 -
隐语义模型LFM
隐语义模型LFM用隐语义模型来进行协同过滤的目标揭示隐藏的特征,这些特征能够解释为什么给出对应的预测评分这类特征可能是无法直接用语言解释描述的,事实上我们并不需要知道,类似“玄学”通过矩阵分解进行降维分析协同过滤算法非常依赖历史数据,而一般的推荐系统中,偏好数据又往往是稀疏的;这就需要对原始数据做降维处理分解之后的矩阵,就代表了用户和物品的隐藏特征隐语义模型的实例基于概率的隐语义分析(pLSA)隐式迪利克雷分布模型(LDA)矩阵因子分解模型(基于奇异值分解的模型,SVD)1原创 2021-02-15 17:03:59 · 355 阅读 · 0 评论 -
基于协同过滤的推荐算法
基于协同过滤的推荐算法基于内容(Content based,CB)主要利用的是用户评价过的物品的内容特征,而CF方法还可以利用其他用户评分过的物品内容协同过滤(Collaborative Filtering,CF) 可以解决 CB 的一些局限物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐CF基于用户之间对物品的评价质量,避免了CB仅依赖内容可能造成的对物品质量判断的干扰CF推荐不受内容限制,只要其他类似用户给出了对不同物品的兴趣,CF就可以给用户推荐出内容差异很大的物品(但有某原创 2021-02-15 16:31:11 · 1990 阅读 · 0 评论 -
使用TF-IDF对UGC基于用户标签推荐算法的改进
基于 UGC 的推荐用户用标签来描述对物品的看法,所以用户生成标签(UGC)是联系用户和物品的纽带,也是反应用户兴趣的重要数据源一个用户标签行为的数据集一般由一个三元组(用户,物品,标签)的集合表示,其中一条记录(u,i,b)表示用户 u 给物品 i 打上了标签 b一个最简单的算法统计每个用户最常用的标签对于每个标签,统计被打过这个标签次数最多的物品对于一个用户,首先找到他常用的标签,然后找到具有这些标签的最热门的物品,推荐给他所以用户 u 对物品 i 的兴趣公式为简单算法中直接将用户原创 2021-02-15 15:15:57 · 820 阅读 · 0 评论 -
基于内容的推荐算法与特征工程(数据标准化)
基于内容的推荐算法Content-based Recommendations (CB) 根据推荐物品或内容的元数据,发现物品的相关性,再基于用户过去的喜好记录,为用户推荐相似的物品。通过抽取物品内在或者外在的特征值,实现相似度计算。比如一个电影,有导演、演员、用户标签UGC、用户评论、时长、风格等等,都可以算是特征。将用户(user)个人信息的特征(基于喜好记录或是预设兴趣标签),和物品(item)的特征相匹配,就能得到用户对物品感兴趣的程度在一些电影、音乐、图书的社交网站有很成功的应用,有些原创 2021-02-15 15:02:41 · 699 阅读 · 0 评论 -
基于人口统计学的推荐算法
基于人口统计学的推荐算法基于人口统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户对于没有明确含义的用户信息(比如登录时间、地域等上下文信息),可以通过聚类等手段,给用户打上分类标签对于特定标签的用户,又可以根据预设的规则(知识)或者模型,推荐出对应的物品用户信息标签化的过程一般又称为用户画像(User Profiling)用户画像原创 2021-02-15 14:48:35 · 1342 阅读 · 0 评论 -
K近邻聚类算法
K近邻聚类算法k 均值(k-means)是聚类算法中最为简单、高效的,属于无监督学习算法核心思想:由用户指定k个初始质心(initial centroids),以作为聚类的类别(cluster),重复迭代直至算法收敛基本算法流程:选取k个初始质心(作为初始cluster);repeat:对每个样本点,计算得到距其最近的质心,将其类别标为该质心所对应的cluster;重新计算k个cluser对应的质心;until 质心不再发生变化或迭代达到上限代码示例# K-means代码实现##原创 2021-02-15 14:42:14 · 2160 阅读 · 2 评论 -
分类问题-决策树模型
决策树分类模型决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。其本质是一颗自上而下的由多个判断节点组成的树决策树示例预测小明今天是否会出门打球决策树与 if-then 规则决策树可以看作一个 if-then 规则的集合由决策树的根节点到叶节点的每一条路径,构建一条规则:路径上内部节点的特征对应着规则的条件(condition),叶节点对应规则的结论决策树的 if-then 规则集合有一个重要性质:互斥并且完备。这就是说,每个实例都被一条规则(一条路径)所覆盖,并且原创 2021-02-15 14:35:25 · 3372 阅读 · 1 评论 -
逻辑斯蒂回归分类算法
逻辑斯蒂回归分类算法首先来看一个线性回归来进行分类的问题: 怎样判断肿瘤是否恶性?很明显线性回归用于分类问题无法处理边界点的位置。同时,线性回归健壮性不够,一旦有噪声,立刻“投降”使用逻辑斯蒂回归 —— 分类问题Sigmoid函数(压缩函数)sigmoid函数中,e-z 中 z 的正负决定了 g(z) 的值最后是大于 0.5 还是小于 0.5;即 z 大于 0 时,g(z) 大于 0.5,z 小于 0 时,g(z)小于 0.5当 z 对应的表达式为分类边界时,恰好有分类边界两侧对应原创 2021-02-15 14:19:16 · 1328 阅读 · 2 评论 -
KNN分类算法
KNN分类算法最简单最初级的分类器,就是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类K近邻(k-nearest neighbour, KNN)是一种基本分类方法,通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数KNN算法中,所选择的邻居都是已经正确分类的对象KNN示例绿色圆要被决定赋予哪个类,原创 2021-02-10 20:57:00 · 966 阅读 · 0 评论 -
梯度下降法求解多元线性回归模型
机器学习多元线性回归模型如果有两个或两个以上的自变量,这样的线性回归分析就称为多元线性回归实际问题中,一个现象往往是受多个因素影响的,所以多元线性回归比一元线性回归的实际应用更广梯度下降法求解线性回归退化到一元线性回归,就有梯度下降法法参数α 在梯度下降算法中被称作为学习率或者步长这意味着我们可以通过 α 来控制每一步走的距离,以保证不要走太快,错过了最低点;同时也要保证收敛速度不要太慢所以 α 的选择在梯度下降法中往往是很重要的,不能太大也不能太小梯度下降法和最原创 2021-02-10 19:40:20 · 4668 阅读 · 3 评论 -
最小二乘法求解线性回归模型及求解
机器学习线性回归模型线性回归(linear regression)是一种线性模型,它假设输入变量 x 和单个输出变量 y 之间存在线性关系具体来说,利用线性回归模型,可以从一组输入变量 x 的线性组合中,计算输出变量 y给定有d个属性(特征)描述的示例 x =(x1; x2; …; xd),其中xi是x在第i个属性(特征)上的取值,线性模型(linear model)试图学得一个通过属性(特征)的线性组合来进行预测的函数,即:一般用向量形式写成:其中 假设特征和结果都满足线性,即不大于一原创 2021-02-10 18:37:54 · 16899 阅读 · 2 评论 -
机器学习模型求解算法
1. 梯度下降算法**梯度下降(gradient descent)**是一种常用的一阶优化方法,是求解无约束优化问题最简单、最经典的方法之一梯度方向:函数变化增长最快的方向(变量沿此方向变化时函数增长最快)负梯度方向:函数变化减少最快的方向(变量沿此方向变化时函数减少最快)损失函数是系数的函数,那么如果系数沿着损失函数的负梯度方向变化,此时损失函数减少最快,能够以最快速度下降到极小值沿着负梯度方向迭代,迭代后的 θ 使损失函数 J(θ) 更小:比如我们在一座大山上的某处位置,由于我们不知道怎么原创 2021-02-09 00:03:20 · 626 阅读 · 0 评论 -
机器学习分类和回归问题
机器学习分类和回归问题监督学习问题主要可以划分为两类,即 分类问题 和 回归问题分类问题预测数据属于哪一类别。 —— 离散回归问题根据数据预测一个数值。 —— 连续通俗地讲,分类问题就是预测数据属于哪一种类型,就像上面的房屋出售预测,通过大量数据训练模型,然后去预测某个给定房屋能不能出售出去,属于能够出售类型还是不能出售类型。回归问题就是预测一个数值,比如给出房屋一些特征,预测房价分类问题在监督学习中,当输出变量 Y 取有限个离散值时,预测问题就成了分类(classification)问题监原创 2021-02-08 23:55:20 · 1221 阅读 · 0 评论 -
机器学习模型评估策略及相关术语
机器学习模型评估策略及相关术语目录机器学习模型评估策略及相关术语1.模型评估1.1 训练集和测试集1.2 损失函数1.3 训练误差和测试误差1.4 过拟合和欠拟合2.模型选择2.1 正则化2.2 奥卡姆剃刀原则3 交叉验证3.1 数据集划分3.2 交叉验证1.模型评估1.1 训练集和测试集我们将数据输入到模型中训练出了对应模型,但是模型的效果好不好呢?我们需要对模型的好坏进行评估我们将用来训练模型的数据称为训练集,将用来测试模型好坏的集合称为测试集。训练集:输入到模型中对模型进行训练的数据集合原创 2021-02-08 23:51:45 · 358 阅读 · 0 评论 -
机器学习之监督学习
机器学习之监督学习1. 监督学习三要素模型(model):总结数据的内在规律,用数学函数描述的系统策略(strategy):选取最优模型的评价准则算法(algorithm):选取最优模型的具体方法2. 监督学习实现步骤得到一个有限的训练数据集确定包含所有学习模型的集合确定模型选择的准则,也就是学习策略实现求解最优模型的算法,也就是学习算法通过学习算法选择最优模型利用得到的最优模型,对新数据进行预测或分析...原创 2021-02-08 23:34:31 · 379 阅读 · 1 评论 -
机器学习主要分类
机器学习主要分类有监督学习:提供数据并提供数据对应结果的机器学习过程。无监督学习:提供数据并且不提供数据对应结果的机器学习过程。强化学习:通过与环境交互并获取延迟返回进而改进行为的学习过程。1.无监督学习无监督聚类应用的一个例子就是在谷歌新闻中。谷歌新闻每天都会收集很多新闻内容。它将这些新闻分组,组成有关联的新闻,然后按主题显示给用户谷歌新闻做的就是搜索新闻事件,自动地把它们聚类到一起;这些新闻事件全是同一主题的2.监督学习监督学习(Supervised Learning)原创 2021-02-08 23:27:29 · 2189 阅读 · 0 评论 -
推荐系统算法评价指标
推荐系统算法评价指标1.推荐准确度评测1.1 评分预测很多网站都有让用户给物品打分的功能,如果知道用户对物品的历史评分,就可以从中学习一个兴趣模型,从而预测用户对新物品的评分评分预测的准确度一般用均方根误差(RMSE)或平均绝对误差(MAE)计算1.2 Top-N推荐网站提供推荐服务时,一般是给用户一个个性化的推荐列表,这种推荐叫做 Top-N推荐Top-N推荐的预测准确率一般用精确率(precision)和召回率(recall)来度量2. 准确率、精确率和召回率假如某个班级有原创 2021-02-08 23:22:26 · 1494 阅读 · 0 评论 -
推荐系统
推荐系统1.产生背景信息过载推荐系统是信息过载所采用的措施,面对海量的数据信息,从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧症”;面向没有明确需求的人。对用户而言要解决如何从大量信息中找到自己感兴趣的信息,对商家而言要解决如何让自己生产的信息脱颖而出,受到大众的喜爱。2.推荐系统的目的让用户更快更好的获取到自己需要的内容让内容更快更好的推送到喜欢它的用户手中让网站(平台)更有效的保留用户资源3.推荐系统的基本思想利用用户和物品的特征信息,给用户推荐那些具有用户喜欢的特原创 2021-02-08 23:17:13 · 277 阅读 · 0 评论