机器学习
文章平均质量分 70
Huranqingqing
这个作者很懒,什么都没留下…
展开
-
在anaconda环境中配置cuda和cudnn
使用anaconda为环境安装对应的cuda版本原创 2022-08-06 14:50:27 · 1010 阅读 · 0 评论 -
LightGBM--调参笔记
LightGBM调参以及在多种情况下需要调的参数原创 2022-06-17 20:00:15 · 547 阅读 · 0 评论 -
推荐系统--基于用户的协同过滤算法(UserCF)
推荐系统–基于用户的协同过滤算法(UserCF)基本概念基本思想:向用户 uuu 推荐时,我们可以先找到和 uuu 相似的用户集合 NuN_uNu,然后把这些用户喜欢的物品,但 uuu 没有看过的物品推荐给他。步骤:找到和目标用户相似的用户集合。找到这个集合中的用户喜欢的,且目标用户还没有听说过的物品,然后推荐给目标用户。步骤1 - - 找相似用户为了找到目标用户的相似用户,我们需要计算不同用户之间的相似度。协同过滤算法主要利用行为的相似度计算兴趣的相似度。对于用户 uuu 和 vvv,原创 2022-04-25 18:50:10 · 6040 阅读 · 2 评论 -
推荐系统--协同过滤(Collaborative Filtering)
推荐系统–协同过滤基本思想根据用户 uiu_iui 之前的喜好以及与其兴趣相近的用户 viv_ivi 的喜好给当前用户 uiu_iui 进行推荐。目前较为常用的协同过滤算法是基于邻域的方法,主要包括(我们对这两种算法单独进行描述,具体可见链接):基于用户的协同过滤算法(UserCF):向用户推荐与其兴趣相近的用户喜欢的物品基于物品的协同过滤算法(ItemCF):向用户推荐和它之前喜欢的物品相近的物品对于协同过滤,最重要的就是计算用户之间或物品之间的相似度,我们给出常用的相似性度量。相原创 2022-04-25 18:46:55 · 765 阅读 · 0 评论 -
推荐系统--评估方法和评估指标
推荐系统–评估方法和评估指标评估方法目前推荐系统中常用的评估方法可以分为两大类:离线评估方法在线评估方法离线评估方法离线评估基本思想是,将数据集划分为训练集和测试集,利用训练集得到一个较优的模型,用测试集进行模型评估。按照训练集和测试集的划分方式,主要分为3种:HoldOut 检验它将样本按照 70% - 30% 的比例进行划分,70% 的样本用于训练,30% 的样本用于评估模型优劣。缺点:数据集的划分直接影响评估结果,存在较大的随机性。K-fold 交叉检验它首先将全部样本等比划原创 2022-04-25 18:34:39 · 1731 阅读 · 0 评论 -
机器学习--逻辑斯谛回归(Logistic Regression)
机器学习–逻辑斯谛回归(Logistic Regression)基本概念逻辑斯谛回归(Logistic Regression)虽然带回归,却是经典的分类方法。逻辑斯谛回归模型属于对数线性模型。它在线性模型的基础上,使用 Sigmoid 函数,将线性模型的结果映射到 [0, 1] 之间,实现了具体值到概率的转换。线性回归:f(x)=wTx+bf(x)=w^Tx + bf(x)=wTx+bSigmoid:S(x)=11+e−xS(x) = \frac{1}{1 + e^{-x}}S(x)=1+e−x原创 2022-04-20 18:28:00 · 377 阅读 · 0 评论 -
机器学习--弹性网络(Elastic-Net Regression)
机器学习–Elastic-Net Regression基本概念弹性网络 是一种使用 L1, L2 范数作为先验正则项训练的线性回归模型。 这种组合允许拟合到一个只有少量参数是非零稀疏的模型,就像 Lasso 一样,但是它仍然保持了一些类似于 Ridge 的正则性质。弹性网络在很多特征互相联系的情况下是非常有用的。Lasso 很可能只随机考虑这些特征中的一个,而弹性网络更倾向于选择两个。最小化的目标函数是:min w12nsamples∣∣Xw−y∣∣22+αρ∣∣w∣∣1+α(1−ρ)2∣∣w∣∣原创 2022-04-19 20:08:06 · 6770 阅读 · 0 评论 -
机器学习--Lasso回归(LassoRegression)
机器学习–LassoRegression基本概念Lasso 是拟合稀疏系数的线性模型。 它在一些情况下是有用的,因为它倾向于使用具有较少参数值的情况,有效地减少给定解决方案所依赖变量的数量。 在线性模型基础上,它增加了一个带有 l1l_1l1 先验的正则化项,可以表示为:minw12nsample∥wTx−y∥22+α∥w∥1\mathop{min}\limits_{w}\frac{1}{2n_{sample}}\Vert w^Tx -y\Vert_2^2 + \alpha\Vert w\Vert_原创 2022-04-19 19:37:36 · 3088 阅读 · 0 评论 -
机器学习--岭回归(RidgeRegression)
机器学习–岭回归模型(RidgeRegression)基本概念RidgeRegression 通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题。岭系数最小化的是带罚项的残差平方和,优化目标为:minw∥wTx−y∥22+α∥w∥22\mathop{min}\limits_{w}\Vert w^Tx-y\Vert_2^2+\alpha\Vert w\Vert_2^2wmin∥wTx−y∥22+α∥w∥22其中, α≥0\alpha \geq 0α≥0 是控制系数收缩量的复杂性参数: α\a原创 2022-04-19 15:26:07 · 2447 阅读 · 0 评论 -
机器学习--线性回归(LinearRegression)
机器学习–线性回归基本概念线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。本文只讨论一元线性回归。表达形式为:y=wTx+by = w^Tx + by=wTx+b我们通常使用最小二乘法对方程进行求解。优化目标为:arg maxw∥wT−y∥22arg\ \mathop{max}\limits_{w}\Vert w^T -y\Vert_2^2arg wmax∥wT−y∥22局限性原创 2022-04-19 15:16:36 · 623 阅读 · 0 评论 -
机器学习--K折交叉验证(K-fold cross validation)
K 折交叉验证(K-flod cross validation)当样本数据不充足时,为了选择更好的模型,可以采用交叉验证方法。基本思想:把给定的数据进行划分,将划分得到的数据集组合为训练集与测试集,在此基础上进行反复训练、测试以及模型选择。最常用的为 K 折交叉验证。首先随机将给定数据划分为 K 个互不相交、大小相同的自己;每次选择一个子集当作测试集(不能重复),其余 K-1 个子集作为训练集;一共进行 K 次;最后选择这 K 次中平均测试误差最小的模型。例子# coding=utf-8fr原创 2022-04-19 10:31:22 · 2228 阅读 · 0 评论 -
机器学习-K近邻算法(KNN)
机器学习–K近邻算法基本概念kkk 近邻法 (kkk-nearest neighbor, kkk-NN) 是一种基于分类与回归的方法。原理:对于一个实例,根据其 kkk 个最近邻的训练实例的类别,通过多数表决等方式来决定这个实例的类别。输入:实例的特征向量输出:实例的类别三个基本要素:kkk 值的选择、距离度量以及分类决策规划kkk 近邻算法输入:训练数据集T={(x1,y1),(x2,y2),⋯ ,(xn,yn)}T = \{(x_1,y_1),(x_2,y_2), \cdots,(x_原创 2022-04-19 09:58:22 · 469 阅读 · 0 评论