
机器学习与深度学习
文章平均质量分 93
《机器学习与深度学习》专栏旨在深度挖掘机器学习和深度学习领域的前沿技术、创新应用及实用指南。我们涵盖从基础理论到高级技术的全面内容,为读者提供从入门到精通的学习路径。专栏将深入解析经典算法、最新研究成果以及实际案例,助力您理解模型原理、优化策略以及在不同领域的应用。
星川皆无恙
大数据技术领域优质创作者 阿里云开发Clouder技能认证 持续更新各种大数据技术讲解及优质项目 苦尽甘来时,我再跟你讲来时的路
展开
-
大数据产品销售数据分析:基于Python机器学习产品销售数据爬虫可视化分析预测系统设计与实现
本项目旨在设计与实现一个基于Python机器学习的产品销售数据爬虫可视化分析预测系统,结合现代数据技术,提升企业产品销售管理的智能化与数字化水平。该系统主要包括数据管理和后台管理两个核心模块,其中数据管理部分涵盖数据爬取、数据存储、数据分析、数据可视化以及基于多元线性回归的销量预测五大功能模块。原创 2025-05-06 14:40:28 · 1350 阅读 · 0 评论 -
大数据与人工智能:脑科学与人工神经网络ANN
人工神经网络(ANN, Artificial Neural Networks)是一种受生物神经网络启发的计算模型,用于模拟人类大脑处理信息的方式。它由大量相互连接的节点(称为神经元)组成,这些神经元通过权重连接形成网络。ANN的基础构成包括输入层、隐藏层和输出层。输入层接收原始数据,隐藏层负责提取和处理数据的特征,而输出层则提供最终结果。每个神经元通过激活函数(如Sigmoid、ReLU等)处理输入信号,并将结果传递给下一个层的神经元。这种结构使得ANN能够进行复杂的模式识别和数据分类。原创 2024-09-10 01:21:58 · 2315 阅读 · 17 评论 -
大数据机器学习算法岗位分析推荐:基于Python的招聘大数据爬虫可视化分析推荐系统
该系统整合了多个关键功能,包括使用Selenium库进行数据爬取、爬虫调度和前端页面选择功能(如城市、爬取页数和职位关键字)。系统还具备数据管理和可视化功能,能够分析薪资待遇、学历分布和职位关键字。通过引入机器学习协同过滤算法,系统能根据用户的求职意向提供个性化职位推荐,并在求职列表中展示推荐结果。在后台,系统支持用户自定义设置和管理已爬取数据。旨在构建一个功能全面、易用且具实际应用价值的招聘数据爬虫、可视化分析和推荐系统,提升求职效率与精准度。原创 2024-08-10 12:48:30 · 3268 阅读 · 0 评论 -
大数据机器学习:常见模型评估指标
模型评估是指在机器学习中,对于一个具体方法输出的最终模型,使用一些指标和方法来评估它的泛化能力。这一步通常在模型训练和模型选择之后,正式部署模型之前进行。模型评估不针对模型本身,而是针对问题和数据,因此可以用来评价不同方法的模型的泛化能力,以此决定最终模型的选择。原创 2024-04-29 12:54:04 · 2086 阅读 · 24 评论 -
大数据目标检测识别:从滑动窗口到YOLO、Transformer目标检测的技术革新
本篇文章全面回顾了目标检测技术的演变历程,从早期的滑动窗口和特征提取方法,到深度学习的兴起,尤其是CNN在目标检测中的革命性应用,再到近年来YOLO系列和Transformer在这一领域的创新实践。这一旅程不仅展示了目标检测技术的发展脉络,还反映了计算机视觉领域不断进步的动力和方向。技术领域的一个独特洞见是,目标检测的发展与计算能力的提升、数据可用性的增加、以及算法创新紧密相关。从早期依赖手工特征的方法,到今天的深度学习和Transformer,我们看到了技术演进与时代背景的深度融合。原创 2024-04-29 12:45:25 · 1461 阅读 · 0 评论 -
大数据深度学习:基于Tensorflow深度学习卷积神经网络CNN算法垃圾分类识别系统
随着社会的发展和城市化进程的加速,垃圾分类已经成为了环境保护和可持续发展的重要课题。然而,传统的垃圾分类方法通常依赖于人工识别,效率低下且易出错。因此,本项目旨在利用大数据和深度学习技术,构建一个基于 TensorFlow 深度学习的神经网络 CNN(Convolutional Neural Network)算法垃圾分类识别系统,以实现自动化高效的垃圾分类。该系统将利用大数据集进行训练,通过深度学习模型提取垃圾图像的特征,从而实现对垃圾进行分类。原创 2024-04-11 18:16:22 · 3002 阅读 · 0 评论 -
基于深度学习LSTM+NLP情感分析电影数据爬虫可视化分析推荐系统(深度学习LSTM+机器学习双推荐算法+scrapy爬虫+NLP情感分析+数据分析可视化)
本项目旨在基于深度学习LSTM(Long Short-Term Memory)模型,基于python编程语言,Vue框架进行前后端分离,结合机器学习双推荐算法、scrapy爬虫技术、PaddleNLP情感分析以及可视化技术,构建一个综合的电影数据爬虫可视化+NLP情感分析推荐系统。通过该系统,用户可以获取电影数据、进行情感分析,并获得个性化的电影推荐,从而提升用户体验和满足用户需求。首先,项目将利用scrapy爬虫框架从多个电影网站上爬取丰富的电影数据,包括电影名称、类型、演员信息、剧情简介等。原创 2024-03-17 21:37:29 · 4734 阅读 · 0 评论 -
大数据旅游数据分析:基于Python旅游数据采集可视化分析推荐系统
本系统主要针对解决获取旅游信息滞后、参加线下旅行社和人工检索时间成本高等问题,运用网络爬虫信息技术设计思想,实现了一个基于Python的旅游信息推荐系统。本系统以Python语言为基础,使用 requests爬虫对去哪儿旅游信息源进行抓取,针对网页信息编写抽取规则,对旅游信息进行必要的过滤和提取,使用MySql对旅游信息进行数据存储。然后使用 Python 开源web框架 Django进行系统搭建,基于旅游信息采用机器学习协同过滤推荐算法完成对用户的旅游信息推荐,完成整个爬取以及数据检索到成功进行旅游推荐。原创 2024-02-29 18:20:43 · 13053 阅读 · 0 评论 -
深度学习自然语言处理(NLP)模型BERT:从理论到Pytorch实战
BERT(Bidirectional Encoder Representations from Transformers)是一种基于深度学习的自然语言处理(NLP)模型。它是由Google在2018年提出的,采用了Transformer架构,并在大规模语料库上进行了预训练。BERT的特点之一是其双向(Bidirectional)处理能力,它能够同时考虑到句子中所有单词的上下文,而不仅仅是单词之前或之后的部分。这种双向性使得BERT在许多NLP任务中表现出色,例如文本分类、问答和命名实体识别等。原创 2024-02-09 19:53:48 · 27254 阅读 · 33 评论 -
大数据知识图谱之深度学习:基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统
基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统通过构建医疗领域的知识图谱来实现计算机的深度学习,并且能够实现自动问答的功能。本次的内容研究主要是通过以Python技术来对医疗相关内容进行数据的爬取,通过爬取足量的数据来进行知识图谱的的搭建,基于Python语言通过echarts、Neo4j来实现知识图谱的可视化。通过智慧问答的方式构建出以BERT+LSTM+CRF的深度学习识别模型,从而完成对医疗问句主体的识别,构建出数据集以及实现文本的训练。通过Django来进行web网页的开发原创 2024-02-01 20:45:19 · 16302 阅读 · 0 评论 -
大数据期望最大化(EM)算法:从理论到实战全解析
期望最大化算法(Expectation-Maximization Algorithm,简称EM算法)是一种迭代优化算法,主要用于估计含有隐变量(latent variables)的概率模型参数。它在机器学习和统计学中有着广泛的应用,包括但不限于高斯混合模型(Gaussian Mixture Model, GMM)、隐马尔可夫模型(Hidden Markov Model, HMM)以及各种聚类和分类问题。原创 2024-01-27 18:05:51 · 2413 阅读 · 24 评论 -
大数据关联规则挖掘:Apriori算法的深度探讨
Apriori算法是一种用于挖掘数据集中频繁项集的算法,进而用于生成关联规则。这种算法在数据挖掘、机器学习、市场篮子分析等多个领域都有广泛的应用。关联规则挖掘是数据挖掘中的一个重要分支,其目标是发现在一个数据集中变量间存在的有趣的关联或模式。假设在一个零售商的交易数据中,如果客户购买了啤酒,他们也很有可能购买薯片。这里的“啤酒”和“薯片”就形成了一个关联规则。频繁项集是在数据集中出现次数大于或等于最小支持度(Minimum Support Threshold)的项的集合。原创 2024-01-21 16:24:47 · 2111 阅读 · 22 评论 -
大数据回归算法全解析:一文读懂机器学习中的回归模型
回归问题是预测一个连续值的输出(因变量)基于一个或多个输入(自变量或特征)的机器学习任务。换句话说,回归模型尝试找到自变量和因变量之间的内在关系。小规模数据集:样本数量较少(通常小于 1000)。大规模数据集:样本数量较多(通常大于 10000)。鲁棒性是模型对于异常值或噪声的抗干扰能力。如果因变量和自变量之间的关系不能通过直线来合理描述,则称为非线性关系。解释性是指模型能否提供直观的解释,以便更好地理解模型是如何做出预测的。数据质量是指数据的准确性、完整性和一致性。原创 2024-01-21 16:21:06 · 1980 阅读 · 2 评论 -
从规则到神经网络:机器翻译技术的演化之路
机器翻译(Machine Translation, MT)是人工智能领域的一项关键技术,旨在实现不同语言之间的自动翻译。自从20世纪中叶首次提出以来,机器翻译已从简单的字面翻译演变为今天高度复杂和精准的语义翻译。这项技术的发展不仅彻底改变了全球信息交流的方式,而且对于经济、政治和文化交流产生了深远影响。在探讨了机器翻译的历史、核心技术、神经机器翻译的深入分析、模型优化与挑战,以及实际应用与案例后,我们可以总结出一些独特的洞见,这些洞见不仅彰显了机器翻译技术的成就和潜力,也指出了未来的发展方向。原创 2024-01-20 16:11:19 · 2154 阅读 · 15 评论 -
大数据知识图谱——基于知识图谱+深度学习的大数据(KBQA)NLP医疗知识问答可视化系统(全网最详细讲解及源码/建议收藏)
通过搭建一个医疗领域知识图谱,并以该知识图谱完成自动问答与分析服务。 基于知识图谱+flask的KBQA医疗问答系统以neo4j作为存储,基于传统规则的方式完成了知识问答,并最终以关键词执行cypher查询,并返回相应结果查询语句作为问答。后面我又设计了一个简单的基于 Flask 的聊天机器人应用,利用nlp自然语言处理,通过医疗AI助手根据用户的问题返回结果,用户输入和系统返回的输出结果都会一起自动存储到sql数据库。后面又封装了深度学习模型完成一个完整基于深度学习知识图谱问答可视化系统。原创 2023-02-21 20:45:00 · 41789 阅读 · 258 评论 -
大数据深度学习卷积神经网络CNN:CNN结构、训练与优化一文全解
卷积神经网络是一种前馈神经网络,它的人工神经元可以响应周围单元的局部区域,从而能够识别视觉空间的部分结构特征。卷积层: 通过卷积操作检测图像的局部特征。激活函数: 引入非线性,增加模型的表达能力。池化层: 减少特征维度,增加模型的鲁棒性。全连接层: 在处理空间特征后,全连接层用于进行分类或回归。卷积神经网络的这些组件协同工作,使得CNN能够从原始像素中自动学习有意义的特征层次结构。随着深度增加,这些特征从基本形状和纹理逐渐抽象为复杂的对象和场景表现。原创 2024-01-14 00:32:16 · 8338 阅读 · 81 评论 -
大数据深度学习ResNet深度残差网络详解:网络结构解读与PyTorch实现教程
深度残差网络(Deep Residual Networks,简称ResNet)自从2015年首次提出以来,就在深度学习领域产生了深远影响。通过一种创新的“残差学习”机制,ResNet成功地训练了比以往模型更深的神经网络,从而显著提高了多个任务的性能。深度残差网络通过引入残差学习和特殊的网络结构,解决了传统深度神经网络中的梯度消失问题,并实现了高效、可扩展的深层模型。梯度消失问题发生在神经网络的反向传播过程中,具体表现为网络中某些权重的梯度接近或变为零。这导致这些权重几乎不会更新,从而阻碍了网络的训练。原创 2024-01-14 00:17:39 · 4656 阅读 · 4 评论 -
大数据农业数据分析:基于Python机器学习算法农业数据可视化分析预测系统(随机森林算法+XGBoost算法)
基于python机器学习XGBoost算法农业数据可视化分析预测系统,旨在帮助农民和相关从业者更好地预测农作物产量,以优化农业生产。该系统主要包括四个功能模块。首先,农作物数据可视化模块利用Echarts、Ajax、Flask、PyMysql技术实现了可视化展示农作物产量相关数据的功能。其次,产量预测模块使用pandas、numpy等技术,通过对气象和农作物产量关系数据集的分析和训练,实现了对农作物产量的预测功能。该模块可以对当前或未来某一时间段的农作物产量进行预测,并提供预测结果的可视化展示。原创 2024-01-12 14:34:23 · 4253 阅读 · 0 评论 -
大数据深度学习长短时记忆网络(LSTM):从理论到PyTorch实战演示
LSTM的逻辑结构通过其独特的门控机制为处理具有复杂依赖关系的序列数据提供了强大的手段。其对信息流的精细控制和长期记忆的能力使其成为许多序列建模任务的理想选择。了解LSTM的这些逻辑概念有助于更好地理解其工作原理,并有效地将其应用于实际问题。我们首先定义一个LSTM类,该类使用PyTorch的nn.Module作为基类。out, _ = self.lstm(x) # LSTM层out = self.fc(out[:, -1, :]) # 全连接层return outinput_size。原创 2024-01-08 13:20:20 · 2597 阅读 · 24 评论 -
基于大数据机器学习TF-IDF 算法+SnowNLP的智慧旅游数据分析可视化推荐系统
基于机器学习TF-IDF 算法SnowNLP大数据的智慧旅游数据分析可视化推荐系统通过数据采集、数据清洗、数据分析、数据可视化的技术,对景区数据进行爬取和收集。以旅游景点数据为基础分析景区热度,挖掘客流量、景区评价等信息,并对分析的结果进行统计。智慧旅游数据分析系统拟实现景区热度、景区展示、游客统计、景区评价、旅游路线等部分。拟定景区热度通过热力图展示,客流量、景区评价情感分析,景点路线推荐等数据通过折线图、饼图等形式呈现出来,推出各景区旅游路线,并将景区的特色场景展现给游客。原创 2024-01-03 19:47:44 · 2972 阅读 · 0 评论 -
机器学习与深度学习——使用paddle实现随机梯度下降算法SGD对波士顿房价数据进行线性回归和预测
使用Paddle实现随机梯度下降(SGD)算法对波士顿房价数据进行线性回归的训练,给出每次迭代的权重、损失和梯度,并进行房价预测值与真实房价值对比。使用Paddle实现随机梯度下降(SGD)算法对波士顿房价数据进行线性回归的训练,给出每次迭代的权重、损失和梯度,并进行房价预测值与真实房价值对比。1、导入必要的库和模块:PaddlePaddle深度学习框架、numpy、os等常用的包和库。将得到的预测结果和真实标签值进行比较,并输出预测房价的结果和真实房价结果。在训练结束后,保存训练好的模型参数到文件中。原创 2024-01-02 19:45:41 · 1848 阅读 · 8 评论 -
大数据机器学习GAN:生成对抗网络GAN全维度介绍与实战
本文为生成对抗网络GAN的研究者和实践者提供全面、深入和实用的指导。通过本文的理论解释和实际操作指南,读者能够掌握GAN的核心概念,理解其工作原理,学会设计和训练自己的GAN模型,并能够对结果进行有效的分析和评估。生成对抗网络(GAN)是深度学习的一种创新架构,由Ian Goodfellow等人于2014年首次提出。其基本思想是通过两个神经网络,即生成器(Generator)和判别器(Discriminator),相互竞争来学习数据分布。生成器:负责从随机噪声中学习生成与真实数据相似的数据。判别器。原创 2024-01-01 14:51:36 · 3209 阅读 · 31 评论 -
大数据前馈神经网络解密:深入理解人工智能的基石
前馈神经网络(Feedforward Neural Network, FNN)是神经网络中最基本和经典的一种结构,它在许多实际应用场景中有着广泛的使用。在本节中,我们将深入探讨FNN的基本概念、工作原理、应用场景以及优缺点。前馈神经网络是一种人工神经网络,其结构由多个层次的节点组成,并按特定的方向传递信息。与之相对的是递归神经网络,其中信息可以在不同层之间双向传递。由输入层、一个或多个隐藏层和输出层组成。信息仅在一个方向上流动,从输入层通过隐藏层最终到达输出层,没有反馈循环。原创 2023-12-28 17:10:06 · 2464 阅读 · 32 评论 -
一文详解自然语言处理两大任务与代码实战:NLU与NLG
自然语言处理(NLP)涵盖了从基础理论到实际应用的广泛领域,本文深入探讨了NLP的关键概念,包括词向量、文本预处理、自然语言理解与生成、统计与规则驱动方法等,为读者提供了全面而深入的视角。自然语言处理的主要任务是让计算机能够像人类一样理解和生成自然语言。它能够让机器读懂人类的语言,使得人们与计算机的交互更加自然流畅。这不仅可以大大提高人机交互的效率,而且也为许多行业如客服、医疗、教育等提供了极大的便利。原创 2023-12-28 15:54:02 · 2158 阅读 · 2 评论 -
OpenCV实战:从图像处理到深度学习的全面指南
在这篇博客中,我们探讨了如何使用OpenCV进行各种图像处理和深度学习任务。从最基本的图像读取和显示,到复杂的图像变换、图像分割、边缘检测,再到深度学习的图像分类和物体检测,我们都有详细的代码和解释。OpenCV是一个强大而且易于使用的库,它为图像处理和计算机视觉提供了许多工具。无论你是一名研究者,还是一名开发者,或者只是一个对图像处理和计算机视觉感兴趣的初学者,OpenCV都可以帮助你快速实现你的想法。原创 2023-12-27 23:15:46 · 3166 阅读 · 7 评论 -
一文带你全面了解 MyBatis
MyBatis是一个基于Java语言的持久层框架,它通过XML描述符或注解将对象与存储过程或SQL语句进行映射,并提供了普通SQL查询、存储过程和高级映射等操作方式,使得操作数据库变得非常方便。MyBatis是Apache下的一个开源项目,其前身是iBATIS,它在2002年由Clinton Begin首次发布。2010年5月,该项目由iBATIS更名为MyBatis,同时推出了第一版MyBatis 3,在整个持久层框架市场上引起了很大的关注和广泛的应用。原创 2023-12-27 16:45:09 · 450 阅读 · 4 评论 -
大数据深度学习Pytorch 最全入门介绍,Pytorch入门看这一篇就够了
本文通过详细且实践性的方式介绍了 PyTorch 的使用,包括环境安装、基础知识、张量操作、自动求导机制、神经网络创建、数据处理、模型训练、测试以及模型的保存和加载。这篇文章通过详细且实践性的方式介绍了 PyTorch 的使用,包括环境安装、基础知识、张量操作、自动求导机制、神经网络创建、数据处理、模型训练、测试以及模型的保存和加载。我们利用 PyTorch 从头到尾完成了一个完整的神经网络训练流程,并在 CIFAR10 数据集上测试了网络的性能。原创 2023-12-25 15:53:06 · 1139 阅读 · 10 评论 -
大数据机器学习深入Scikit-learn:掌握Python最强大的机器学习库
Scikit-learn是一个强大且易用的Python库,它为我们提供了一整套的机器学习工具,可以用于解决从数据预处理,到模型训练,再到模型评估和参数调优的全流程任务。Scikit-learn的广泛应用,不仅仅因为它的功能强大,更因为它的设计理念——统一的API,使得我们可以快速地切换不同的模型和算法,而不需要对代码进行大的修改。这种灵活性和易用性,使得Scikit-learn成为了Python机器学习库的首选。原创 2023-12-25 15:44:23 · 2078 阅读 · 37 评论 -
大数据深度解析NLP文本摘要技术:定义、应用与PyTorch实战
在本文中,我们深入探讨了自然语言处理中的文本摘要技术,从其定义、发展历程,到其主要任务和各种类型的技术方法。文章详细解析了抽取式、生成式摘要,并为每种方法提供了PyTorch实现代码。最后,文章总结了摘要技术的意义和未来的挑战,强调了其在信息过载时代的重要性。原创 2023-12-24 23:36:10 · 2618 阅读 · 12 评论 -
大数据知识图谱解码:从核心概念到技术实战
知识图谱是近年来人工智能和数据科学领域的焦点。本文深入探索了知识图谱的核心概念、发展历程、研究内容以及其在表示、存储、获取、构建和推理方面的技术细节。结合Python和PyTorch示例代码,文章旨在为读者提供一个全面、深入且实用的知识图谱概览,帮助广大技术爱好者和研究者深化对此领域的认识。原创 2023-12-21 15:18:18 · 3216 阅读 · 23 评论 -
大数据深度学习朴素贝叶斯深度解码:从原理到深度学习应用
本文深入探讨了朴素贝叶斯算法,从基础的贝叶斯定理到算法的各种变体,以及在深度学习和文本分类中的应用。通过实战演示和详细的代码示例,展示了朴素贝叶斯在自然语言处理等任务中的实用性和高效性。通过深入地掌握和理解这一算法,我们可以更全面地认识到机器学习的多样性和灵活性,这对于任何希望深入了解这一领域的人来说,都是极其宝贵的。原创 2023-12-21 14:44:21 · 1694 阅读 · 0 评论 -
大数据机器学习 - 似然函数:概念、应用与代码实例
本文深入探讨了似然函数的基础概念、与概率密度函数的关系、在最大似然估计以及机器学习中的应用。通过详尽的定义、举例和Python/PyTorch代码示例,文章旨在提供一个全面而深入的理解。通过深入探讨似然函数和最大似然估计,本文旨在为读者提供一个全面而深入的理解,帮助大家更有效地应用这一概念于各种实际问题中。原创 2023-12-21 14:32:04 · 1724 阅读 · 0 评论 -
大数据机器学习-梯度下降:从技术到实战的全面指南
梯度下降(Gradient Descent)是一种在机器学习和深度学习中广泛应用的优化算法。该算法的核心思想非常直观:找到一个函数的局部最小值(或最大值)通过不断地沿着该函数的梯度(gradient)方向更新参数。简单地说,梯度下降是一个用于找到函数最小值的迭代算法。在机器学习中,这个“函数”通常是损失函数(Loss Function),该函数衡量模型预测与实际标签之间的误差。通过最小化这个损失函数,模型可以“学习”到从输入数据到输出标签之间的映射关系。原创 2023-12-18 19:19:29 · 2007 阅读 · 21 评论 -
大数据机器学习:从理论到实战,探索学习率的调整策略
学习率(Learning Rate)是机器学习和深度学习中一个至关重要的概念,它直接影响模型训练的效率和最终性能。简而言之,学习率控制着模型参数在训练过程中的更新幅度。一个合适的学习率能够在确保模型收敛的同时,提高训练效率。然而,学习率的选择并非易事;过高或过低的学习率都可能导致模型性能下降或者训练不稳定。本文全面深入地探讨了机器学习和深度学习中的学习率概念,以及其在模型训练和优化中的关键作用。文章从学习率的基础理论出发,详细介绍了多种高级调整策略,并通过Python和PyTorch代码示例提供了实战经验。原创 2023-12-18 19:12:38 · 1367 阅读 · 1 评论 -
大数据机器学习深度解读ROC曲线:技术解析与实战应用
本文全面探讨了ROC曲线(Receiver Operating Characteristic Curve)的重要性和应用,从其历史背景、数学基础到Python实现以及关键评价指标。文章旨在提供一个深刻而全面的视角,以帮助大家更好地理解和应用ROC曲线在模型评估中的作用。原创 2023-12-14 13:19:38 · 2375 阅读 · 20 评论 -
大数据机器学习深度解读决策树算法:技术全解与案例实战
在决策树中,每个内部节点代表一个特征上的测试,每个分支代表测试的结果,而每个叶节点代表最终的决策结果。决策树的构建始于根节点,包含整个训练集,通过分裂成子节点的过程,逐渐学习数据中的规律。想象一下,我们面前有一篮水果,目的是区分苹果和橘子。一棵决策树可能首先询问:“这个水果的颜色是红色吗?”如果答案是肯定的,它可能会将这个水果分类为苹果;否则,它会继续询问:“这个水果的质感是光滑的吗?”这样的一系列问题最终导致分类的结果,这就是决策树的工作方式。原创 2023-12-13 23:24:51 · 2443 阅读 · 25 评论 -
大数据机器学习深度解读DBSCAN聚类算法:技术与实战全解析
在机器学习的众多子领域中,聚类算法一直占据着不可忽视的地位。它们无需预先标注的数据,就能将数据集分组,组内元素相似度高,组间差异大。这种无监督学习的能力,使得聚类算法成为探索未知数据的有力工具。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是这一领域的杰出代表,它以其独特的密度定义和能力,处理有噪声的复杂数据集,揭示了数据中潜藏的自然结构。原创 2023-12-13 23:09:13 · 3296 阅读 · 0 评论 -
大数据机器学习与深度学习——过拟合、欠拟合及机器学习算法分类
针对模型的拟合,这里引入两个概念:过拟合,欠拟合。过拟合:在机器学习任务中,我们通常将数据集分为两部分:训练集和测试集。训练集用于训练模型,而测试集则用于评估模型在未见过数据上的性能。过拟合就是指模型在训练集上表现较好,但在测试集上表现较差的现象。当模型过度拟合训练集时,它会学习到训练数据中的噪声和异常模式,导致对新数据的泛化能力下降。过拟合的典型特征是模型对训练集中每个样本都产生了很高的拟合度,即模型过于复杂地学习了训练集的细节和噪声。欠拟合:在训练集上的效果就很差。原创 2023-12-13 22:56:10 · 1623 阅读 · 0 评论 -
大数据机器学习与深度学习——回归模型评估
回归模型的性能的评价指标主要有:MAE(平均绝对误差)、MSE(平均平方误差)、RMSE(平方根误差)、R2_score。但是当量纲不同时,RMSE、MAE、MSE难以衡量模型效果好坏,这就需要用到R2_score。原创 2023-12-13 22:46:16 · 3893 阅读 · 0 评论 -
大数据机器学习与深度学习—— 生成对抗网络(GAN)
GAN包含有两个模型,一个是生成模型(generative model),一个是判别模型(discriminative model)。生成模型的任务是生成看起来自然真实的、和原始数据相似的实例。判别模型的任务是判断给定的实例看起来是自然真实的还是人为伪造的(真实实例来源于数据集,伪造实例来源于生成模型)。原创 2023-12-13 22:37:46 · 1333 阅读 · 0 评论