![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 83
Machine Learning
chaser&upper
西电CS硕士在读,热爱Coding,喜欢分享,欢迎您与我交流~
展开
-
一文搞定:自监督 对比学习 contrastive learning_contrastive learning enhanced intrusion detection
对比方法在有更多的负样本的情况下效果更好,因为假定更多的负样本可以更有效地覆盖底层分布,从而给出更好的训练信号。目前,自监督方法(MoCo, He et al., 2019)在 Pascal VOC 上的检测性能已经超越了监督方法,并在许多其他任务上取得了良好的效果。传统上,这些任务需要在 ImageNet 上进行有监督的预培训才能获得最佳效果,但 MoCo 的结果表明,无监督和有监督的预训练训之间的差距已经很大程度上缩小了。具体的例子包括音频信号中说话者的身份,视频中进行的活动,图像中的物体等。原创 2024-06-28 13:43:06 · 907 阅读 · 0 评论 -
probs = torch.nn.functional.softmax(logits, dim=1) 将 logits 通过 softmax 函数转换为概率分布。
Softmax 函数是一种在机器学习和深度学习中常用的函数,它将一个向量或一组实数转换成概率分布。在多分类问题中,Softmax 函数通常用于将神经网络的输出(logits)转换为概率分布,这样每个类别的概率都是非负的,并且所有类别的概率之和为1。Softmaxzi∑jezjezi其中,zi是输入向量中的第i个元素,而j遍历输入向量中的所有元素。在 PyTorch 中,可以通过函数来实现 Softmax 操作。在上面的代码中,logits。原创 2024-05-30 15:05:13 · 769 阅读 · 1 评论 -
t-SNE 可视化降维方法简介
t-SNE 可视化降维方法简介原创 2024-05-09 11:01:57 · 103 阅读 · 0 评论 -
【代码详解】torch.matmul(features, features.T)
torch.matmul(features, features.T)这一操作在深度学习和机器学习领域中有着重要的应用,特别是在计算相似度或相关性矩阵时。:这行代码计算了特征矩阵features与其转置features.T的矩阵乘法。这里的features是一个二维张量,其中每一行代表一个样本的特征向量。矩阵乘法的结果是一个对称的相似度矩阵,其中。原创 2024-04-30 11:43:36 · 291 阅读 · 2 评论 -
【代码详解】mask = torch.eq(labels, labels.T).float()
综上,mask张量的每个元素表示了标签数组中对应位置的两个样本是否拥有相同的标签。这在很多机器学习任务中非常有用,特别是在计算相似度或进行对比学习时,可以用来强调同类样本间的相互作用,而忽略不同类样本间的直接比较。这样的转换是必要的,因为在后续的计算中,我们可能需要使用这些值进行加减乘除等数学运算,而这些操作通常要求输入是数值型的。这段代码的目的是创建一个布尔掩码(mask),用于表示输入标签数组中相同标签之间的对称关系。原创 2024-04-30 11:35:16 · 223 阅读 · 0 评论 -
【代码详解】features = F.normalize(features, p=2, dim=1)的原理是什么?
这在机器学习和深度学习中非常常见,特别是在嵌入空间和对比学习中,因为它可以帮助消除特征尺度的影响,使得向量的比较更加公平。是PyTorch中的一个函数,用于对特征向量进行L2范数(Euclidean norm)归一化。,但保留了原始特征方向的信息,这对许多机器学习算法(尤其是那些依赖于距离度量的)是有益的。或欧几里得归一化,其目的是将特征向量的长度(或模)缩放为1,而保持向量的方向不变。对于dim=1的情况,i是样本索引,j是特征索引,而k遍历所有的特征。这个操作使得每个样本向量变成了。原创 2024-04-30 11:30:10 · 1092 阅读 · 0 评论 -
三分钟搞清人工智能、机器学习与深度学习
Artificial Intelligence人工智能(Artificial Intelligence)机器学习(Machine Learning)深度学习(DeepLearning)机器学习与深度学习的比较To sum up人工智能(Artificial Intelligence)1956年,几个计算机科学家相聚在达特茅斯会议,提出了“人工智能”的概念,梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。其后,人工智能就一直萦绕于人们的脑海之中,并在科研实验室中慢慢孵化。之原创 2021-06-04 23:21:25 · 1766 阅读 · 2 评论 -
初识:神经网络(Neural Networks)
浅谈Neural Networks神经网络介绍神经网络原理感知机激活函数Sigmoid 函数双曲正切函数(tanh)后序神经网络介绍人工神经网络(Artificial Neural Networks)也简称为神经网络(NN)。是模拟人类大脑神经网络的结构和行为。20 世纪 80 年代以来,人工神经网络(Artificial Neural Network)研究所取得的突破性进展。神经网络辨识是采用神经网络进行逼近或建模,神经网络辨识为解决复杂的非线性、 不确定、未知系统的控制问题开辟了新途径。神经网原创 2021-05-05 20:52:08 · 4721 阅读 · 2 评论 -
人工智能入门好文,强烈推荐! ! !
人工智能概述1. 人工智能概述1.1 人工智能应用场景1.2 人工智能小案例1.3 人工智能发展必备三要素1.4 人工智能、机器学习和深度学习2. 人工智能发展历程2.1 人工智能的起源2.1.1 图灵测试2.1.2 达特茅斯会议2.2 发展历程3. 人工智能主要分支3.1 主要分支介绍3.2 计算机视觉3.3 语音识别3.4 文本挖掘/分类3.5 机器翻译3.6 机器人1. 人工智能概述1.1 人工智能应用场景1.2 人工智能小案例案例一:参考链接:Link案例二:参考链接:Link原创 2021-06-30 08:47:33 · 624 阅读 · 4 评论 -
【一起啃西瓜书】机器学习-期末复习(不挂科)
【机器学习-期末复习爆肝2w字笔记整理分享】《机器学习》致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据(经验)中产生“模型”,用于对新的情况给出判断(利用此模型预测未来的一种方法)。分为三类:监督学习、元监督学习、强化学习。原创 2021-12-11 14:02:32 · 22780 阅读 · 6 评论 -
【机器学习必备知识】NumPy线性代数详解
NumPy 线性代数前言numpy.dot()numpy.vdot()numpy.inner()numpy.matmulnumpy.linalg.det()numpy.linalg.solve()numpy.linalg.inv()前言机器学习里面用到许多线性代数的知识,因此NumPy的线性代数相关操作,你一定要懂点儿哦!NumPy 提供了线性代数函数库 linalg,该库包含了线性代数所需的所有功能,可以看看下面的说明:函数描述dot两个数组的点积,即元素对应相乘。vdo原创 2021-12-10 20:38:56 · 655 阅读 · 0 评论 -
【一起啃西瓜书】机器学习-期末复习
【机器学习-期末复习爆肝2w字笔记整理分享】《机器学习》致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据(经验)中产生“模型”,用于对新的情况给出判断(利用此模型预测未来的一种方法)。分为三类:监督学习、元监督学习、强化学习。原创 2021-12-09 15:54:40 · 8179 阅读 · 6 评论 -
【项目实战】Airbnb爱彼迎-数据分析与建模
Airbnb数据分析与建模Calendar数据集分析对price价格数据进行处理处理时间序列可视化分析listings数据集分析对价格数据进行预处理处理价格缺失值新增字段获取详细数据数据可视化Reviews数据集分析预测房间价格评论数量的预测import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom pylab import mpl# 设置显示中文字体mpl.rcPa原创 2021-11-19 21:45:18 · 3224 阅读 · 14 评论 -
【项目实战】心脏病患者数据分析和建模
心脏病患者数据分析和建模读取数据患病的分布情况性别和患病的分布年龄分布情况统一看下所有特征的分布情况建模操作数据预处理K近邻决策树随机森林逻辑回归SGD分类import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')from pylab import mpl# 设置显示中文字体m原创 2021-11-19 22:18:12 · 4164 阅读 · 8 评论 -
【特征工程】特征抽取
特征抽取1. 字典特征抽取2. CountVectorizer3. jieba分词4. TFIDF特征抽取1. 字典特征抽取from sklearn.feature_extraction import DictVectorizerfruits = [{"fruit":"苹果","price":5},{"fruit":"橘子","price":5.9},{"fruit":"菠萝","price":9.9}]vect = DictVectorizer()result = vect.fit_trans原创 2021-11-13 21:33:48 · 206 阅读 · 0 评论 -
【机器学习】交叉验证和网格搜索
交叉验证和网格搜索交叉验证和网格搜索交叉验证:网格搜索:交叉验证和网格搜索交叉验证:之前学习算法的时候,去验证一个模型泛化能力(好坏),都只验证一次,这肯定是不行的。因此我们可以把一份数据集分成多份,然后交叉进行验证,然后最后再把每次交叉验证后的得分求平均值,这样的得分才更有说服力。K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在原创 2021-11-13 20:49:10 · 2179 阅读 · 0 评论 -
【机器学习】回归算法-精讲
回归算法回归算法线性回归和非线性回归:线性回归线性回归方程:损失函数:损失函数推理过程:1. 公式转换:2. 误差公式:3. 转化为`θ`求解:4. 似然函数求`θ`:对数似然:损失函数:梯度下降:批量梯度下降(BGD):随机梯度下降(SGD):`mini-batch`小批量梯下降MBGD:线性回归案例:正则化与岭回归:总结:逻辑回归精确率和召回率:癌症患者逻辑回归案例:逻辑回归总结:回归算法数据类型分为连续型和离散型。离散型的数据经常用来表示分类,连续型的数据经常用来表示不确定的值。比如一个产品质量分原创 2021-11-13 20:28:11 · 8488 阅读 · 4 评论 -
【强烈推荐】机器学习之算法篇
机器学习算法机器学习算法数据类型:可用数据集:监督学习和无监督学习:算法分类:scikit-learn数据集获取数据集:获取数据集方式:数据集的划分:本地数据集:分类数据集:回归数据集:远程数据集:分类数据集:K近邻算法K近邻算法原理:使用`sklearn`实现`K`近邻算法:案例:`K`(也就是`n_neighbors`)值该去多大?K近邻算法的优缺点:作业:朴素贝叶斯贝叶斯:概率计算小案例:联合概率和条件概率:联合概率:条件概率:朴素贝叶斯公式:贝叶斯公式例子:文档分类:拉普拉斯平滑系数:文章分类实战:原创 2021-10-22 17:09:26 · 728 阅读 · 0 评论 -
【机器学习】带你搞懂什么是特征工程?(特征抽取&特征预处理&特征选择&数据降维)
带你搞懂什么是特征工程?特征工程什么是特征工程:特征工程的意义:特征抽取字典特征抽取:常用方法:One-hot编码:文本特征抽取:文档中词出现的个数:中文分词:tf-idf文本抽取:特征预处理:归一化:标准化:缺失值处理:特征选择和数据降维特征选择:过滤选择:PCA(主成分分析):主成分分析求解步骤:1. 获取方差最大的正交变换:2. 生成更多主成分:特征工程什么是特征工程:特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性。比如原始数据可能非常庞大原创 2021-10-22 17:01:21 · 4569 阅读 · 0 评论 -
【回炉重造】带你搞懂什么是机器学习?
机器学习介绍什么是机器学习:机器学习是一门多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。大白话讲就是:通过根据已有的数据使用算法获取这些数据的特性(模型),然后预测未知数据的走向。机器学习应用案例:如今因为数据量的增加,硬件条件越来越好,给机器学习提供了非常多的发展空间。目前在很多领域都用到了机器学习,比如:计算机识别、抖音推荐算法、360异常流量监控、信用卡欺诈检测、AI原创 2021-10-22 16:44:45 · 363 阅读 · 0 评论 -
【机器学习】线性回归(回炉重造)
机器学习---线性回归1. 简单线性回归2. 多元线性回归3. 线性回归的正规方程解线性回归是属于机器学习里面的监督学习,与分类问题不同的是,在回归问题中,其目标是通过对训练样本的学习,得到从样本特征到样本标签直接的映射,其中,在回归问题中,样本的标签是连续值。线性回归是一类重要的回归问题。在线性回归中,目标值与特征直接存在线性关系。1. 简单线性回归简单线性回归在生活中,我们常常能碰到这么一种情况,一个变量会跟着另一个变量的变化而变化,如圆的周长与半径的关系,当圆的半径确定了,那么周长也就确定原创 2021-09-30 17:05:31 · 1858 阅读 · 0 评论 -
【机器学习】模型评估、选择与验证
模型评估、选择与验证1. 为什么要有训练集与测试集?2. 欠拟合与过拟合3. 偏差与方差4. 验证集与交叉验证4.1 k折交叉验证4.2 集成学习4.3 自助法5. 衡量回归的性能指标5.1 MSE5.2 RMSE5.3 MAE5.4 R-Squared6. 准确度的陷阱与混淆矩阵6.1 准确度的缺陷6.2 混淆矩阵7. 精准率与召回率7.1 精准率7.2 召回率8. F1 Score9. ROC曲线与AUC9.1 ROC曲线9.2 AUC10. sklearn中的分类性能指标10.1 accu\fracy原创 2021-09-17 20:27:08 · 907 阅读 · 0 评论 -
使用K-Means进行聚类,用calinski_harabaz_score评价聚类效果
使用K-means进行聚类,用calinski_harabaz_score评价聚类效果代码效果附录代码"""下面的方法是用kmeans方法进行聚类,用calinski_harabaz_score方法评价聚类效果的好坏大概是类间距除以类内距,因此这个值越大越好"""import matplotlib.pyplot as pltfrom sklearn.datasets.samples_generator import make_blobsfrom sklearn.cluster import原创 2021-08-19 09:44:22 · 4503 阅读 · 0 评论 -
如何理解无偏估计?无偏估计有什么用?
如何理解无偏估计?无偏估计有什么用?1. 如何理解无偏估计2. 无偏估计为何叫做“无偏”?它要“估计”什么?3. 为何要用无偏估计?1. 如何理解无偏估计无偏估计:就是认为所有样本出现的概率⼀样。假如有N种样本我们认为所有样本出现概率都是1/N。然后根据这个来计算数学期望。此时的数学期望就是我们平常讲的平均值。数学期望本质就是平均值2. 无偏估计为何叫做“无偏”?它要“估计”什么?首先回答第⼀个问题:它要“估计”什么?它要估计的是整体的数学期望(平均值)。第二个问题:那为何叫做无偏?原创 2021-07-27 10:18:10 · 6364 阅读 · 2 评论 -
极大似然函数取对数的原因
极大似然函数取对数的原因1. 减少计算量2. 利于结果更好的计算3. 取对数并不影响最后结果的单调性1. 减少计算量2. 利于结果更好的计算但其实可能更重要的⼀点是,因为概率值都在[0,1]之间,因此,概率的连乘将会变成⼀个很小的值,可能会引起浮点数 下溢,尤其是当数据集很大的时候,联合概率会趋向于0,非常不利于之后的计算。3. 取对数并不影响最后结果的单调性...原创 2021-07-27 10:12:17 · 3568 阅读 · 0 评论 -
Huber Loss
Huber LossHuber Loss 是⼀个用于回归问题的带参损失函数, 优点是能增强平方误差损失函数(MSE, mean square error)对离群点的鲁棒性。当预测偏差小于 δ 时,它采用平方误差,当预测偏差大于 δ 时,采用的线性误差。相比于最小二乘的线性回归,Huber Loss降低了对离群点的惩罚程度,所以 Huber Loss 是⼀种常用的鲁棒的回归损失函数。Huber Loss 定义如下:...原创 2021-07-27 10:09:31 · 645 阅读 · 2 评论 -
拉格朗日乘子法
朗格朗日乘子法拉格朗日乘子法 (Lagrange multipliers)是⼀种寻找多元函数在⼀组约束下的极值的方法.通过引入拉格朗日乘子,可将有 d 个变量与 k 个约束条件的最优化问题转化为具有 d + k 个变量的⽆约束优化问题求解。本文希望通过⼀个直观简单的例子尽力解释拉格朗日乘⼦法和KKT条件的原理。以包含⼀个变量⼀个约束的简单优化问题为例。我们可以直观的从图中得到,对于约束 1) 使目标值f(x)最小的最优解是x=−2;对于约束 2) 使目标值f(x)最小的最优解是x=−1。原创 2021-07-27 10:06:25 · 1232 阅读 · 2 评论 -
【史诗级干货长文】集成学习进阶(XGBoost & lightGBM)
集成学习进阶1. xgboost算法原理1.1 最优模型的构建方法1.2 XGBoost的目标函数推导1.2.1 目标函数确定1.2.2 CART树的介绍1.2.3 树的复杂度定义1.2.3.1 定义每课树的复杂度1.2.3.2 树的复杂度举例1.2.4 目标函数推导1.3 XGBoost的回归树构建方法1.3.1 计算分裂节点1.3.2 停⽌分裂条件判断1.4 XGBoost与GDBT的区别2. xgboost算法api介绍2.1 xgboost的安装2.2 xgboost参数介绍2.2.1 通⽤参数(g原创 2021-07-26 23:15:25 · 686 阅读 · 0 评论 -
《绝地求生》玩家排名预测(2万5千字~大型综合实战)
《绝地求生》玩家排名预测1. 项目背景2. 数据集介绍3. 项目评估方式3.1 评估方式3.2 MAE(Mean Absolute Error)介绍4. 项目实现(数据分析+RF+lightGBM)4.1 获取数据、基本数据信息查看4.2 数据基本处理4.2.1 数据缺失值处理4.2.2 特征数据规范化处理4.2.2.1 查看每场比赛参加的人数4.2.2.2 规范化输出部分数据4.2.3 部分变量合成4.2.4 异常值处理4.2.4.1 异常值处理:删除有击杀,但是完全没有移动的玩家4.2.4.2 异常原创 2021-07-26 23:11:24 · 3551 阅读 · 11 评论 -
otto案例介绍 -- Otto Group Product Classification Challenge【xgboost实现】
【机器学习】otto案例介绍1. 背景介绍2. 思路分析3. 代码实现3.1 数据获取3.2 数据基本处理3.2.1 截取部分数据3.2.2 把标签值转换为数字3.2.3 分割数据3.2.4 数据标准化3.2.5 数据PCA降维3.3 模型训练3.3.1 基本模型训练3.3.2 模型调优3.3.2.1 确定最优的estimators3.3.2.2 确定最优的max_depth3.3.2.3 依据上面模式,运行调试下面参数3.3.3 最优模型1. 背景介绍奥托集团是世界上最⼤的电⼦商务原创 2021-07-26 21:37:38 · 2327 阅读 · 0 评论 -
泰坦尼克号乘客生存预测(XGBoost)
泰坦尼克号乘客生存预测(XGBoost)1. 案例背景2. 步骤分析3. 代码实现1. 案例背景泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。 在这个案例中,我们要求您完成对哪些人可能存活的原创 2021-07-26 21:17:11 · 2150 阅读 · 0 评论 -
【史诗级干货长文】HMM模型
HMM模型1. 马尔科夫链1.1 简介1.2 经典举例1.3 小结2. HMM简介2.1 简单案例2.2 案例进阶2.2.1 问题阐述2.2.2 问题解决2.2.2.1 一个简单问题【对应问题2】2.2.2.2 看见不可见的,破解骰子序列【对应问题1】2.2.2.3 谁动了我的骰子?【对应问题3】2.3 小结3. HMM模型基础3.1 什么样的问题需要HMM模型3.2 HMM模型的定义3.3 一个HMM模型实例3.4 HMM观测序列的生成3.5 HMM模型的三个基本问题3.4 小结4. 前向后向算法评估观察原创 2021-07-26 20:54:38 · 1170 阅读 · 0 评论 -
【机器学习】EM算法
EM算法1. 初识EM算法2. EM算法介绍2.1 极大似然估计2.1.1 问题描述2.1.2 用数学知识解决现实问题2.1.3 最大似然函数估计值的求解步骤2.2 EM算法实例描述3. EM算法实例3.1 ⼀个超级简单的案例3.2 加入隐变量z后的求解3.2.1 EM初级版3.2.2 EM进阶版3.3 小结1. 初识EM算法EM算法也称期望最大化(Expectation-Maximum,简称EM)算法。它是⼀个基础算法,是很多机器学习领域算法的基础,⽐如隐式⻢尔科夫算法(HMM)等等。EM算法是⼀原创 2021-07-25 21:08:57 · 1232 阅读 · 15 评论 -
SVM-loss function
SVM-lossSVM-loss 具体步骤SVM-loss 具体步骤loss function中,如果g(x)输出的值和y值相同,那么loss就是0,否则就是1此处损失函数的设计,最后得到的结果两者的乘积太大了,所以不好上面第二行,如何推导?Are loss function all the same?http://web.mit.edu/lrosasco/www/publications/loss.pdfhttp://hunch.net/?p=547支持向量机,就是由这两部原创 2021-07-25 15:50:57 · 727 阅读 · 2 评论 -
【史诗级干货长文】支持向量机
支持向量机SVM1. SVM算法简介1.1 SVM算法导入1.2 SVM算法定义1.2.1 定义1.2.2 超平面最大间隔介绍1.2.3 硬间隔和软间隔1.2.3.1 硬间隔分类1.2.3.2 软间隔分类1.3 小结2. SVM算法API初步使用3. SVM算法原理3.1 定义输入数据3.2 线性可分支持向量机3.3 SVM的计算过程与算法步骤3.3.1 推导目标函数3.3.2 目标函数的求解3.3.2.1 朗格朗⽇乘⼦法3.3.2.2 对偶问题3.3.2.3 整体流程确定3.4 举例3.5 小结4. SV原创 2021-07-25 15:39:51 · 521 阅读 · 1 评论 -
【机器学习】SVM算法案例:数字识别器
案例:数字识别器1. 案例背景介绍2. 数据介绍3. 案例实现3.1 获取数据3.1.1 确定特征值\目标值3.1.2 查看具体图像3.2 数据基本处理3.2.1 数据归一化处理3.2.2 数据集分割3.3 特征降维和模型训练3.4 确定最优模型1. 案例背景介绍MNIST(“修改后的国家标准与技术研究所”)是计算机视觉事实上的“hello world”数据集。⾃1999年发布以来,这⼀经 典的⼿写图像数据集已成为分类算法基准测试的基础。随着新的机器学习技术的出现,MNIST仍然是研究⼈员和学习者 的原创 2021-07-25 15:36:37 · 2962 阅读 · 6 评论 -
【史诗级干货长文】朴素贝叶斯
朴素贝叶斯学习目标1. 朴素贝叶斯算法简介2. 概率基础复习2.1 概率定义2.2 案例:判断女神对你的喜欢情况2.3 联合概率、条件概率与相互独立2.4 贝叶斯公式2.4.1 公式介绍2.4.2 案例计算2.4.3 文章分类计算2.5 小结3. 案例:商品评论情感分析3.1 API介绍3.2 商品评论情感分析3.2.1 步骤分析3.2.2 代码实现1 获取数据2 数据基本处理2.1 取出内容列,用于后面分析2.2 把评价中的好评差评转化为数字2.3 选择停用词2.4 把‘内容’处理,转化为标准原创 2021-07-24 19:43:26 · 812 阅读 · 2 评论 -
【史诗级干货长文】聚类算法
Clustering Algorithm1. 聚类算法简介1.1 认识聚类算法1.1.1 聚类算法在现实中的应用1.1.2 聚类算法的概念1.1.3 聚类算法与分类算法最大的区别1.2 小结2. 聚类算法api初步使用2.1 api介绍2.2 案例2.2.1 流程分析2.2.2 代码实现2.3 小结3. 聚类算法实现流程4. 模型评估5. 算法优化6. 特征降维1. 聚类算法简介学习目标掌握聚类算法实现过程知道K-means算法原理知道聚类算法中的评估模型说明K-means的优缺点了解聚类中原创 2021-07-24 13:40:11 · 655 阅读 · 8 评论 -
【机器学习】案例:探究用户对物品类别的喜好细分
案例:探究用户对物品类别的喜好细分学习目标1. 需求2. 分析3. 完整代码3.1 获取数据3.2 数据基本处理3.2.1 合并表格3.2.2 交叉表合并3.2.3 数据截取3.3 特征工程 — pca3.4 机器学习(k-means)3.5 模型评估学习目标应用pca和K-means实现用户对物品类别的喜好细分划分数据如下:order_products__prior.csv:订单与商品信息字段:order_id, product_id, add_to_cart_order, reord原创 2021-07-24 13:35:13 · 1238 阅读 · 3 评论 -
【机器学习】特征工程-特征降维
特征工程-特征降维1. 降维1.1 定义1.2 降维的两种方式2. 特征选择2.1 定义2.2 方法2.3 低方差特征过滤2.3.1 API2.3.2 数据计算2.4 相关系数2.4.1 皮尔逊相关系数(Pearson Correlation Coefficient)2.4.2 斯皮尔曼相关系数(Rank IC)学习目标了解降维的定义知道通过低方差过滤实现降维过程知道相关系数实现降维的过程知道主成分分析法实现过程1. 降维1.1 定义降维是指在某些限定条件下,降低随机变量(特征)个数,得原创 2021-07-24 13:22:47 · 1019 阅读 · 0 评论