机器学习
文章平均质量分 93
艾派森
CSDN内容合伙人、新星导师、大数据分析领域优质创作者、阿里云社区专家博主,热爱python(昵称的由来),专注于数据分析、数据挖掘,持续分享学习笔记,感谢关注与支持。专栏【大数据分析案例合集】,感兴趣的小伙伴速速订阅!接Python爬虫、数据分析、数据挖掘、机器学习等相关课程设计作业/毕设,有需求请私信我!需要领取博文代码、数据集、学习资料、进粉丝交流群、的小伙伴点击了解:https://bbs.csdn.net/topics/614636587
展开
-
基于人气与协同过滤的图书推荐系统研究与实践
基于人气与协同过滤的图书推荐系统成为了当前研究的热点之一。通过深入研究用户行为数据和图书的人气信息,结合协同过滤算法,可以更好地满足用户的个性化需求,提高推荐系统的精准度和用户满意度。这也是本研究的动机所在,旨在探讨如何有效地整合人气信息和协同过滤算法,构建一种更为强大和智能的图书推荐系统。原创 2023-12-14 18:37:58 · 15024 阅读 · 150 评论 -
基于记忆与模型协同过滤的电影推荐系统研究与实践
随着信息技术的不断发展,人们在日常生活中面临着越来越多的选择,例如在电影、音乐、图书等娱乐领域。为了帮助用户更好地发现符合其兴趣和偏好的内容,推荐系统应运而生。推荐系统通过分析用户的历史行为、兴趣和偏好,向用户提供个性化的推荐内容,从而提升用户体验和平台的粘性。原创 2023-11-16 18:31:25 · 15899 阅读 · 167 评论 -
基于Bagging集成学习方法的情绪分类预测模型研究
本研究旨在探讨基于Bagging集成学习方法的情感分类预测模型。通过结合多个基分类器的输出,我们可以期望获得更为鲁棒和泛化能力强的情感分类模型,从而更好地适应不同领域和文本类型的情感分析任务。此外,通过采用Bootstrap采样技术,Bagging还能够有效减少过拟合的风险,提高模型的稳定性。原创 2023-11-21 17:15:36 · 14648 阅读 · 136 评论 -
【机器学习】人工智能概述
机器学习和人工智能,深度学习的关系人工智能(AI):人工智能是一门研究如何使计算机能够模拟、理解和执行人类智能任务的学科。它的目标是让计算机具备类似于人类的智能水平,可以进行推理、学习、感知和决策。机器学习:机器学习是人工智能的一个重要分支,它是让计算机通过从数据中学习和提取模式,自动改进执行特定任务的能力。在传统编程中,程序员需要明确指定计算机应该如何执行任务,而在机器学习中,计算机通过学习数据的规律和特征自主地进行任务执行,这种方式使得计算机在面对新的情况时也能做出合理的决策。原创 2023-09-04 12:28:46 · 20041 阅读 · 159 评论 -
数据挖掘实战:基于KMeans算法对超市客户进行聚类分群
本实验基于KMeans算法对超市客户进行了聚类分群。通过对客户购物数据进行聚类,我们成功将客户分为不同的群体。每个群体代表了具有相似购物行为和偏好的客户群体。通过实验结果,我们发现了客户群体之间的明显差异和共性。不同群体的客户在购买频率、购物金额和购买种类等方面有所区别。这为超市提供了重要的市场细分信息,帮助超市经营者更好地了解不同客户群体的需求和喜好,制定有针对性的营销策略和商品推荐,提高客户满意度和忠诚度。此外,实验还揭示了超市客户的购物行为规律,为超市优化商品陈列和促销策略提供了指导。原创 2023-08-01 18:26:05 · 21701 阅读 · 140 评论 -
KMeans+DBSCAN密度聚类+层次聚类的使用(附案例实战)
本文将使用案例的方法介绍KMeans+DBSCAN密度聚类+层次聚类的使用原创 2023-06-02 08:00:00 · 9256 阅读 · 149 评论 -
交叉验证之KFold和StratifiedKFold的使用(附案例实战)
交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。通常情况下,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型。原创 2023-04-25 08:00:00 · 20300 阅读 · 133 评论 -
基于Flask+Bootstrap+机器学习的南昌市租房价格预测系统
本项目使用Flask框架搭建基于机器学习的南昌市租房价格预测系统 (简易版)其中关于Flask知识点可参考文章Flask全套知识点从入门到精通,学完可直接做项目其中关于南昌市租房价格预测可参考文章基于XGBoost算法构造房屋租赁价格评估模型整个项目分为以下几个模块:项目文件框架如下:其中manager.py为主程序,password.csv为存储用户账号密码的文件,lianjia是房租价格原始数据集,model.pkl是经过机器学习算法训练出的模型。 IDE编辑器:vscode后端框架:Flask前端框架原创 2023-05-02 08:30:00 · 11435 阅读 · 97 评论 -
机器学习之KMeans聚类算法原理(附案例实战)
KMeans聚类什么是聚类任务1 无监督机器学习的一种2 目标将已有数据根据相似度划分到不同的簇3 簇内样本彼此之间越相似,不同簇的样本之间越不相似,就越好为什么叫KMeans聚类1 也可以叫K均值聚类2 K是最终簇数量,它是超参数,需要预先设定3 在算法计算中会涉及到求均值KMeans流程1 随机选择K个簇中心点2 样本被分配到离其最近的中心点3 K个簇中心点根据所在簇样本,以求平均值的方式重新计算4 重复第2步和第3步直到所有样本的分配不再改变原创 2022-10-24 13:59:13 · 11939 阅读 · 17 评论 -
Python实现因子分析(附案例实战)
因子分析(Factor Analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。原创 2022-10-18 22:03:40 · 17574 阅读 · 17 评论 -
基于朴素贝叶斯算法对肿瘤类别分类
威斯康星乳腺肿瘤数据集是一个非常经典的用于医疗病情分析 的数据集,它包括569个 病例的数据样本,每个样本具有30个特征,而样本共分为两类:恶 性(Malignant)、良性 (Benign)。使用sklearn.datasets.load_breast_cancer加载数据集。原创 2022-10-05 06:00:00 · 10577 阅读 · 0 评论 -
基于SVM-支持向量机对鸢尾花数据进行分类
支持向量机(SVM),Supported Vector Machine,基于线性划 分,输出一个最优化的 分隔超平面,该超平面不但能将两类正确分开,且使分类间隔 (margin)最大。原创 2022-10-03 07:00:00 · 11623 阅读 · 0 评论 -
基于朴素贝叶斯算法对新闻文本进行分类
贝叶斯定理(Bayes Theorem)也称贝叶斯公式,是关于随机 事件的条件概率的定理 定理内容: 如果随机事件A1 ,A2 ,...,An构成样本空间的一个划分(不重、不 漏),且都有正概率,则 对任何一个事件B(P(B)>0),有贝叶斯定理是“由果溯因”的推断,所以计算的是"后验概率"据天气预报预测,今日下雨(事件A)的概率为50%——P(A);堵车(事件B)的概率是80%——P(B)如果下雨,堵车的概率是95%——P(B|A)计算:如果放眼望去,已经堵车了,下雨的概率是多少?原创 2022-10-04 08:00:00 · 11092 阅读 · 2 评论 -
基于SVM-支持向量机解决波士顿房价预测回归问题
支持向量机(SVM),Supported Vector Machine,基于线性划 分,输出一个最优化的 分隔超平面,该超平面不但能将两类正确分开,且使分类间隔 (margin)最大。原创 2022-10-02 10:47:10 · 9932 阅读 · 0 评论 -
集成学习之随机森林、Adaboost、Gradient Boosting、XGBoost原理及使用
Bagging是并行式集成学习最著名的代表,它是基于自助采样法 (bootstrap sampling)给定包含m个样本的数据集,先随机取出一个样本放入采 样集中并记录,再把该样本放回初始数据集,使得下次采样时 该样本仍有可能被选中,这样,经过m次随机采样操作,我们 得到含m个样本的采样集,初始训练集中有的样本在采样集里 多次出现,有的则从未出现(平均37%没有取到)。带外数据OOB(Out of Bag)原创 2022-10-02 08:00:00 · 12765 阅读 · 0 评论 -
决策树原理以及在sklearn中的使用
ID3:信息增益标示按某种特性分类后,剩余特性的信息熵的大小 的衰减程度,信息熵越小, 证明已经分好的类别就更加的纯粹单一C4.5:选择了信息增益比替代信息增益;由于ID3算法会倾向于 选取特征值较多的特征 进行分类(因为这样会让信息增益很大),比如:区分每个学生的成绩 采用学生的学号进行区分,那么每个学生对应一个学号,则按照学 号分的话,每个分组中就只有一个样本,并且信息熵为0,显然这个 不是我们想要的,因此我们引入了信息增益比,每次选择分类特性 的时候,根据信息增益比进行选取。原创 2022-10-01 13:00:52 · 11333 阅读 · 3 评论 -
Python实现聚类分析和数据降维
K-Means是聚类算法中最常用的一种,是一种迭代求解的聚类分析算法;聚类是一种 无监督学习,事先并不知道分类标签是什么,它能够将具有相似特征的对象划分 到同一个集 合(簇)中。簇内的对象越相似,聚类算法的效果越好。原创 2022-09-29 06:30:00 · 11796 阅读 · 2 评论 -
Python实现线性回归和梯度下降算法
什么是梯度下降法在机器学习中,对于很多监督学习模型,需要对原始的模型构 建损失函数 J,接下来便 是通过优化算法对损失函数J进行优化,最小化损失函数,以便寻找 到最优的参数theta. 于是,基于搜索的梯度下降法就产生了。梯度下降法的含义是通过当前点的梯度(偏导数)的反方向寻找 到新的迭代点,并从当 前点移动到新的迭代点继续寻找新的迭代点,直到找到最优解。梯度下降法参数更新三种梯度下降法轮次:epoch,训练数据集学习的轮数。原创 2022-09-28 06:00:00 · 10285 阅读 · 0 评论 -
Python实现KNN算法和交叉验证
交叉验证是一种模型选择方法和调参方法,它随机地将数据集 切分成三部分,分别为训 练集(training set)、验证集(validation set)和测试集(test set)。训练 集用来训练模型,验证 集用于模型的选择,测试集用于最终对学习方法的评估。原创 2022-09-27 08:45:00 · 11333 阅读 · 0 评论 -
利用python实现Apriori关联规则算法
大家可能听说过用于宣传数据挖掘的一个案例:啤酒和尿布;据说是沃尔玛超市在分析顾客的购买记录时,发现许多客户购买啤酒的同时也会购买婴儿尿布,于是超市调整了啤酒和尿布的货架摆放,让这两个品类摆放在一起;结果这两个品类的销量都有明显的增长;分析原因是很多刚生小孩的男士在购买的啤酒时,会顺手带一些婴幼儿用品。不论这个案例是否是真实的,案例中分析顾客购买记录的方式就是关联规则分析法Association Rules。关联规则分析也被称为购物篮分析,用于分析数据集各项之间的关联关系。项集:item的集合,如集合{牛奶、原创 2022-06-19 12:38:24 · 16270 阅读 · 6 评论 -
基于sklearn随机森林算法探究肥胖的成因
目录项目背景数据介绍数据来源属性介绍算法介绍随机森林算法决策树随机森林定义随机森林构建过程随机森林算法评价随机森林算法的发展现状及趋势实验步骤1.导入模块与数据2.查看数据3.数据预处理4.可视化分析5.特征工程6.构建模型实验总结项目背景我们所经历的全球化进程带来了一系列变化,因为社会、政治、经济和文化进程错综复杂地交织在一起,改变了习俗和习惯,特别是我们的生活方式。这导致与食物过度消费有关的疾病大...原创 2022-05-30 09:00:00 · 13042 阅读 · 15 评论 -
基于sklearn随机森林算法对鸢尾花数据进行分类
随机森林定义随机森林(Random Forest,RF),顾名思义就是将多棵相互之间并无关联的决策树整合起来形成一个森林,再通过各棵树投票或取均值来产生最终结果的分类器。在介绍随机森林前需要了解几个概念:Bootstrap 自助抽样法、Bagging 套袋法和 Boosting 提升法。Bootstrap 是一种抽样方法,即采取随机有放回的方式采样数据,也就是每次抽取一个样本,再将其放回样本集中,下次还有可能抽到这个样本;而每轮中未抽到的数据组合起来,形成袋外数据集(...原创 2022-05-24 21:59:35 · 11492 阅读 · 0 评论 -
使用scikit-learn构建模型的万能模板(机器学习入门必看)
算法工程师是伴随着人工智能火起来的一个领域。听着名字似乎门槛很高。但是,得益于Python生态下的包共享机制,机器模型构建的过程其实已经变得非常简单了,很多听起来牛逼的算法,其实根本不需要自己实现,甚至都不需要知道这些算法的具体原理。你只需要两步就能构建起自己的机器学习模型: 明确你需要解决的问题是什么类型,以及知道解决该类型问题所对应的算法。 从skicit-learn中调用相应的算法构建模型即可。是的!在机器学习领域,如果你只是抱着体验机器学习的心态,实现起来就是这么...原创 2022-05-23 07:30:00 · 9245 阅读 · 2 评论 -
基于sklearn决策树算法对鸢尾花数据进行分类
决策树决策树是属于有监督机器学习的一种,起源非常早,符合直觉并且非常直观,模仿人类做决 策的过程,早期人工智能模型中有很多应用,现在更多的是使用基于决策树的一些集成学习 的算法。这章我们把决策树算法理解透彻非常有利于后面去学习集成学习。特点1. 可以处理非线性的问题2. 可解释性强 没有θ3. 模型简单,模型预测效率高 if else4. 不容易显示的使用函数表达,不可微决策树模型生成和预测模型生成:通过大量数据生成一颗非常好的树,用这棵树来预测新来的数...原创 2022-05-22 00:36:35 · 13283 阅读 · 5 评论 -
利用python实现逻辑回归(以鸢尾花数据为例)
从广义线性回归推导出逻辑回归什么是逻辑回归逻辑回归不是一个回归的算法,逻辑回归是一个分类的算法,就比如卡巴斯基不是司机。 那为什么逻辑回归不叫逻辑分类?因为逻辑回归算法是基于多元线性回归的算法。而正因为 此,逻辑回归这个分类算法是线性的分类器。未来我们去学的基于决策树的一系列算法,基 于神经网络的算法等那些是非线性的算法。SVM 支持向量机的本质是线性的,但是也可以 通过内部的核函数升维来变成非线性的算法。Sigmoid 作用逻辑回归就是在多元线性回归基础上把结果缩放到 0 到 1 之间。原创 2022-05-19 22:29:16 · 11115 阅读 · 0 评论 -
利用python实现Ridge岭回归和Lasso回归
正则化regularization在介绍Ridge和Lasso回归之前,我们先了解一下正则化过拟合和欠拟合(1) under fit:还没有拟合到位,训练集和测试集的准确率都还没有到达最高。学的还不 到位。(2) over fit:拟合过度,训练集的准确率升高的同时,测试集的准确率反而降低。学的过 度了,做过的卷子都能再次答对,考试碰到新的没见过的题就考不好。(3) just right:过拟合前训练集和测试集准确率都达到最高时刻。学习并不需要花费很多 时间,理解的很好,考试的时候可原创 2022-05-18 12:45:00 · 11213 阅读 · 0 评论 -
利用python实现3种梯度下降算法
目录全量梯度下降随机梯度下降小批量梯度下降三种梯度下降区别和优缺点全量梯度下降Batch Gradient Descent在梯度下降中,对于θ的更新,所有的样本都有贡献,也就是参与调整θ。其计算得到 的是一个标准梯度。因而理论上来说一次更新的幅度是比较大的。如果样本不多的情况下, 当然是这样收敛的速度会更快啦。全量梯度下降每次学习都使用整个训练集,因此其优点在 于每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点(凸函数收敛于全局极值 点,非凸函数可能会收敛于局原创 2022-05-17 22:01:50 · 13163 阅读 · 7 评论