数据挖掘实战合集
文章平均质量分 97
🌟解锁Python数据挖掘新境界!本专栏专注于Python数据挖掘,从零到一打造你的数据挖掘技能树。技术栈包括数据分析与可视化、机器学习、深度学习、NLP自然语言处理等,案例涉及领域包括教育、医疗、生物、金融等。限时9.9元即可阅读本专栏所有文章,欢迎订阅!立即加入,开启你的数据探索之旅!🚀
余额抵扣
助学金抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
艾派森
【商务合作vx:zxb_1222】CSDN内容合伙人、新星导师、大数据分析领域优质创作者、阿里云社区专家博主,热爱python(昵称的由来),专注于数据分析、数据挖掘,持续分享学习笔记,感谢关注与支持。专栏【大数据分析案例合集】,感兴趣的小伙伴速速订阅!接Python爬虫、数据分析、数据挖掘、机器学习等相关课程设计作业/毕设,有需求请私信我!需要领取博文代码、数据集、学习资料、进粉丝交流群、的小伙伴点击了解:https://bbs.csdn.net/topics/614636587
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘实战-基于随机森林模型的零售店库存可视化与预测
本文基于随机森林模型对零售店库存进行可视化分析与需求预测。研究使用包含7.3万条记录的电商数据集,涵盖销售、库存、定价、天气等多维度特征。通过Python技术栈完成数据预处理、可视化分析和模型构建,结果显示随机森林模型在需求预测任务中表现良好(训练集R²=0.94,测试集R²=0.89)。实验揭示了不同品类商品销售与天气、促销等因素的关联性,为优化库存策略提供数据支持。该方法可有效降低库存成本,提升供应链效率,具有实用商业价值。原创 2025-06-22 09:50:01 · 14327 阅读 · 20 评论 -
数据挖掘实战-基于决策树回归算法构建公寓租赁价格预测模型
本文基于Python构建了一个公寓租赁价格预测模型,使用决策树回归算法对Kaggle数据集进行分析(原数据99,492条,22个特征)。通过数据预处理(缺失值处理、重复值删除)、特征工程(非数值编码)和模型对比(SVR、随机森林等9种算法),最终决策树模型R²得分达0.96,预测值与真实值高度吻合。实验证明地理位置、房屋面积等特征对租金影响显著,可视化结果显示预测曲线与实际曲线几乎重合,模型表现优异。完整代码已公开,涵盖数据清洗、特征重要性分析和模型评估全流程。原创 2025-06-18 15:28:02 · 9205 阅读 · 24 评论 -
数据挖掘实战-基于情感分析+网络语义分析+LDA主题分析对大唐不夜城用户评论进行文本分析
本研究基于去哪儿网和携程网的1888条大唐不夜城游客评论数据,运用Python进行文本分析。通过情感分析发现游客评价以积极为主(占比约70%),中性占20%,消极占10%。采用ROSTCM6软件进行社会网络语义分析,识别不同情绪下的高频词汇。使用LDA主题模型将评论划分为3个主题(夜景、表演、美食),并分析主题强度随时间变化趋势。实验包含数据采集、预处理、情感分析、语义网络分析和LDA建模等完整流程,为景区管理优化提供数据支持。源代码涵盖爬虫、数据处理和可视化分析的全套实现。原创 2025-06-15 09:31:33 · 15604 阅读 · 23 评论 -
数据挖掘实战-基于机器学习的会计专业毕业生薪资预测模型
本研究的数据集来源于拉勾招聘网站。我们使用Python网络爬虫Selenium技术模拟浏览器行为并最终获取了拉勾网中会计相关岗位的招聘数据,其中包括岗位名称、公司名称、工作经验要求、学历要求、工作地点、薪酬、公司规模以及公司福利等相关的数据。原创 2025-06-06 14:51:04 · 10971 阅读 · 22 评论 -
数据挖掘实战-基于RFM模型与K-means聚类算法对超市客户进行细分
本实验数据集来源于Kaggle,是某国际大型超市的用户消费记录数据,原始数据集共有541909条,8个变量。具体各变量解释如下:InvoiceNo:该包含每个零售发票或交易的唯一标识符或代码。它有助于跟踪和识别个人销售交易。StockCode:该列包含每个交易中出售的特定产品或项目的代码或标识符。它允许将产品与其各自的交易关联起来。Description:这一栏包含正在出售的产品或物品的文字描述或名称。它提供了关于产品的更详细的信息。Quantity:这一列表示在每次交易中销售的产品或物品的数量。原创 2025-05-28 20:07:57 · 12679 阅读 · 26 评论 -
数据挖掘实战-基于LSTM时间序列模型的香烟销售预测分析
本文介绍了基于LSTM时间序列模型的香烟销售预测分析实验。实验背景为烟草市场竞争激烈,企业需提高销售预测准确性以优化生产、库存和营销策略。LSTM模型因其处理长序列数据的能力被选为预测工具。实验步骤包括数据准备、特征工程、模型构建、训练与评估及结果分析。数据集来自某市门店的销售数据,技术工具为Python 3.9和Jupyter Notebook。实验过程涵盖数据导入、预处理、产品销售与区域销售分析、销售预测(包括销售额、销量、利润及海通店销售额预测)。原创 2025-05-21 09:22:19 · 8699 阅读 · 27 评论 -
数据挖掘实战-基于随机森林算法的空气质量污染预测模型
本实验数据集来源于Kaggle,该数据集重点关注各地区的空气质量评估。数据集包含5000个样本,并捕获了影响污染水平的关键环境和人口因素。Temperature(°C):该地区的平均温度。Humidity(%):该地区记录的相对湿度。PM2.5浓度(µg/m³):细颗粒物水平。PM10浓度(µg/m³):粗颗粒物水平。NO2浓度(ppb):二氧化氮水平。SO2浓度(ppb):二氧化硫水平。CO浓度(ppm):一氧化碳水平。原创 2025-05-09 12:04:16 · 8311 阅读 · 37 评论 -
数据挖掘实战-基于随机森林算法的交通事故预测模型
本实验数据集来源于Kaggle,原始数据集共有209306条,该数据集包含不同地区和时间段的交通事故详细信息。它包括各种指标,例如事故日期、天气状况、照明条件、碰撞类型、受伤人数和车辆参与情况。数据涵盖多个地点和事故类型,可全面了解交通事故及其原因。具体包括:crash_date:事故发生的日期。Traffic_control_device:所涉及的交通控制设备的类型(例如交通灯、标志)。weather_condition:事故发生时的天气状况。原创 2025-04-23 10:14:02 · 14881 阅读 · 32 评论 -
数据挖掘实战-基于TFIDF+余弦相似度的个性化论文推荐
本实验数据集来源于Kaggle,原始数据集为英文论文数据,共有5000条,包含论文题目和摘要。原创 2025-04-12 09:22:13 · 12243 阅读 · 32 评论 -
数据挖掘实战-基于卷积神经网络CNN的口罩检测识别模型|91%准确率
关于数据集口罩检测数据集在疫情期间,由于每个人在外出时都必须戴口罩,因此深度学习检测戴口罩和不戴口罩的面部的方法是一种很好的流行做法。在这里,我创建了一个模型,用于检测在 7553 个具有 3 个颜色通道 (RGB) 的图像上训练的面罩。数据集由 7553 个 RGB 图像组成,分别位于 with_mask 和 without_mask 2 个文件夹中。图像被命名为标签 with_mask 和 without_mask。原创 2025-04-01 10:36:03 · 10313 阅读 · 42 评论 -
数据挖掘实战-基于深度学习Keras的玉米植物叶识别检测模型
关于数据集数据集来源于Kaggle,用于玉米或玉米植物叶病分类的数据集0:Common Rust(常见锈病) - 1306 张图片1:Gray Leaf Spot(灰叶斑) - 574 张图片2:Blight(枯萎病) -1146 张图片3:Healthy(健康) - 1162 张图片。原创 2025-03-24 18:46:20 · 13827 阅读 · 35 评论 -
数据挖掘实战-基于LRFM+Kmeans的消费者客户分群聚类
本实验数据集来源于Kaggle,是某国际大型超市的用户消费记录数据,原始数据集共有541909条,8个变量。具体各变量解释如下:InvoiceNo:该包含每个零售发票或交易的唯一标识符或代码。它有助于跟踪和识别个人销售交易。StockCode:该列包含每个交易中出售的特定产品或项目的代码或标识符。它允许将产品与其各自的交易关联起来。Description:这一栏包含正在出售的产品或物品的文字描述或名称。它提供了关于产品的更详细的信息。Quantity:这一列表示在每次交易中销售的产品或物品的数量。原创 2025-03-21 08:57:53 · 10133 阅读 · 33 评论 -
数据挖掘实战-基于情感分析+网络语义分析对泾阳茯茶用户评论进行文本分析
本实验数据集来源于京东商城,使用Python爬虫获取泾阳茯茶商品的用户评论,共计3416条数据,字段有用户ID、用户昵称、IP属地、评论时间、评分、评论内容,共计6个字段信息。'''作者:艾派森csdn主页:https://blog.csdn.net/m0_64336780时间:2024/5/28'''# 导包import csv# 获取评论q=0.01',q=0.9,en;b_avif=1;b_dw=1412;b_dh=650;areaId=27;原创 2025-03-03 19:27:21 · 16127 阅读 · 34 评论 -
基于Flask+Bootstrap+机器学习的南昌市租房价格预测系统
本项目使用Flask框架搭建基于机器学习的南昌市租房价格预测系统 (简易版)其中关于Flask知识点可参考文章Flask全套知识点从入门到精通,学完可直接做项目其中关于南昌市租房价格预测可参考文章基于XGBoost算法构造房屋租赁价格评估模型整个项目分为以下几个模块:项目文件框架如下:其中manager.py为主程序,password.csv为存储用户账号密码的文件,lianjia是房租价格原始数据集,model.pkl是经过机器学习算法训练出的模型。 IDE编辑器:vscode后端框架:Flask前端框架原创 2023-05-02 08:30:00 · 11730 阅读 · 0 评论 -
数据挖掘实战-基于KMeans算法对超市客户进行聚类分群
本实验基于KMeans算法对超市客户进行了聚类分群。通过对客户购物数据进行聚类,我们成功将客户分为不同的群体。每个群体代表了具有相似购物行为和偏好的客户群体。通过实验结果,我们发现了客户群体之间的明显差异和共性。不同群体的客户在购买频率、购物金额和购买种类等方面有所区别。这为超市提供了重要的市场细分信息,帮助超市经营者更好地了解不同客户群体的需求和喜好,制定有针对性的营销策略和商品推荐,提高客户满意度和忠诚度。此外,实验还揭示了超市客户的购物行为规律,为超市优化商品陈列和促销策略提供了指导。原创 2023-08-01 18:26:05 · 24176 阅读 · 0 评论 -
数据挖掘实战-基于Pytorch深度学习的脑肿瘤分类识别
脑肿瘤是一种严重的疾病,对患者的生命和健康造成了威胁。在脑肿瘤的治疗过程中,准确地识别和分类不同类型的脑肿瘤对于制定个性化的治疗方案和预测患者的病情发展非常重要。传统的脑肿瘤分类方法通常依赖于医学专家对影像学图像的视觉解读和分析,但这种方法受限于主观性、经验依赖性和人力成本较高等问题。原创 2023-07-07 12:42:39 · 20025 阅读 · 0 评论 -
数据挖掘实战-python实现基于长短期记忆网络LSTM模型预测茅台股票价格趋势
随着金融数据的不断增长和复杂化,传统的统计方法和机器学习技术面临着挑战。深度学习算法通过多层神经网络的构建,以及大规模数据的训练和优化,可以从数据中提取更加丰富、高级的特征表示,从而提供更准确、更稳定的预测和决策能力。在金融领域,深度学习算法已经被广泛应用于多个关键任务。首先,风险评估是金融机构必须面对的重要问题之一。深度学习算法可以通过学习大规模的历史数据,识别隐藏在数据中的潜在风险因素,并预测未来的风险情况。其次,欺诈检测是金融行业必不可少的任务。原创 2023-06-07 16:34:10 · 16257 阅读 · 0 评论 -
数据挖掘实战-基于tensorflow深度学习的猫狗分类识别
本实验的目的是基于深度学习方法进行猫狗分类,通过设计和训练深度神经网络模型,实现对输入图像进行准确的猫狗分类。原创 2023-06-21 08:00:00 · 23950 阅读 · 0 评论 -
数据挖掘实战-基于LSTM和N-gram序列的英文文本生成
本实验旨在探索基于LSTM和N-gram序列的英文文本生成方法,提高生成文本的流畅性、多样性和语义准确性,为自然语言处理领域的相关研究和应用提供有益的参考。原创 2023-12-07 17:27:51 · 16570 阅读 · 0 评论 -
数据挖掘实战-基于随机森林算法的美国加州山火预测模型
本实验数据集来源于Kaggle,该数据集反映了各种火灾事件中建筑物所遭受的损坏情况,按损坏百分比分类——从轻微损坏(1-10%)到完全损坏(50-100%),由评估受野火影响的建筑物的现场检查员收集。该数据集由加州林业和消防局 (CAL FIRE) 与国家跨部门消防中心 (NIFC) 和火灾综合实时情报系统 (FIRIS) 合作提供。该数据集对于防火、应急响应和灾害管理工作非常有价值。主要包括以下特征:OBJECTID:数据集中每个记录的唯一标识符。原创 2025-02-07 16:55:27 · 10644 阅读 · 31 评论 -
数据挖掘实战-基于LDA主题分析+文本分析的医学论文分类研究
本实验数据集来源于Kaggle,原始数据集为医学相关的论文,共有8000条,3列,分别为title:论文题目author:论文作者abstract:论文摘要在本次医学类论文摘要分析实验中,我们采取了多元化的分析方法,以深入探索和理解文本的内在结构和语义信息。通过综合运用LDA主题分析和K-means聚类算法,我们有效地对文本数据进行了主题识别和类别划分。首先,我们应用了LDA主题分析技术,该技术成功地揭示了隐藏在大量医学论文摘要中的主要主题。原创 2025-01-21 15:35:57 · 11919 阅读 · 43 评论 -
数据挖掘实战-基于机器学习的车辆二氧化碳排放量建模分析
本实验数据集来源于Kaggle,该数据集捕获了车辆二氧化碳排放量随不同特征变化的详细信息。数据集取自加拿大政府官方开放数据网站。其中包含 7 年期间的数据。总共有 7385 行和 12 列。各列变量含义解释如下:Make:车辆的品牌或制造商。Model:车辆的具体车型名称。Vehicle Class:车辆的分类,如紧凑型、SUV等。Engine Size(L):车辆发动机的尺寸,以升为单位。Cylinders:车辆发动机的气缸数。原创 2025-01-17 10:02:56 · 12930 阅读 · 27 评论 -
数据挖掘实战-基于卷积神经网络CNN的玉米植物叶病分类识别模型
关于数据集数据集来源于Kaggle,用于玉米或玉米植物叶病分类的数据集数据集说明:常见锈病- 1306 张图片灰叶斑- 574 张图片Blight(枯萎病-1146 张图片Healthy(健康- 1162 张图片。原创 2025-01-02 21:40:58 · 13443 阅读 · 83 评论 -
什么是数据挖掘?数据挖掘到底在解决什么问题?
本文我将借助5W1H的思想来带你从整体上了解一下数据挖掘。比如什么是数据挖掘为什么要做数据挖掘在哪些场景下用数据挖掘怎么做数据挖掘第一个问题,什么是数据挖掘?这个问题看似很简单,但似乎也很难有一个明确的答案。如果非要给数据挖掘一个定义的话,那么我认为数据挖掘就是寻找数据中隐含的知识,并用于产生商业价值。也就是说它是我们在数据中,尤其是在大量的数据中找到一些有价值,甚至是非常有价值的东西的一种手段。原创 2024-12-26 20:39:17 · 15859 阅读 · 0 评论 -
数据挖掘实战-基于循环神经网络RNN的口罩检测识模型|98%准确率
关于数据集口罩检测数据集在最近由于疫情爆发而导致的全球封锁趋势中,由于每个人在外出时都必须戴口罩,因此深度学习检测戴口罩和不戴口罩的面部的方法是一种很好的流行做法。在这里,我创建了一个模型,用于检测在 7553 个具有 3 个颜色通道 (RGB) 的图像上训练的面罩。数据集由 7553 个 RGB 图像组成,分别位于 with_mask 和 without_mask 2 个文件夹中。图像被命名为标签 with_mask 和 without_mask。原创 2024-12-15 09:17:16 · 11450 阅读 · 71 评论 -
数据挖掘实战-基于SARIMA时间序列模型预测Netflix股票未来趋势
该数据集对 Netflix 过去十年的股票表现进行了深入分析,并结合了众多技术指标来检查其价格波动。它包括记录日期和一些重要统计数据:每个交易日的开盘价、最高价、最低价和收盘价,以及交易量。它还包含 7 天和 14 天相对强度指数 (RSI) 等动量指标,以确定股票是否超买或超卖。还包括 7 天和 14 天的商品通道指数 (CCI),通过将当前价格与历史平均值进行比较,帮助识别短期和中期市场趋势。原创 2024-11-08 09:23:56 · 10815 阅读 · 71 评论 -
数据挖掘实战-基于树模型的北京全年空气PM2.5预测
基于树模型的北京全年空气PM2.5预测研究,旨在通过收集和分析北京市过去一段时间内的空气质量数据,利用树模型算法建立预测模型,实现对北京全年PM2.5浓度的准确预测。该研究不仅可以为相关部门提供科学依据,制定有效的空气质量改善策略,还可以为公众提供未来空气质量趋势的预测信息,帮助他们提前做好防护措施。同时,该研究还可以进一步推动树模型在空气质量预测领域的应用和发展,为其他城市的空气质量预测提供借鉴和参考。原创 2024-12-03 15:42:10 · 11974 阅读 · 74 评论 -
数据挖掘实战-基于Apriori关联规则的市场购物篮分析
零售商希望针对客户提供有关客户最有可能购买的项目集的建议。数据集包含零售商的数据;交易数据提供一段时间内发生的所有交易的数据。零售商将利用结果在其行业中成长并为客户提供有关项目集的建议,我们能够提高客户参与度并改善客户体验并识别客户行为。数据集来源于Kaggle,原始数据集共有522064条,7个变量,各变量含义如下:BillNo:为每笔交易分配的6位数字。Itemname:产品名称。Quantity:每笔交易中每个产品的数量。Date:每笔交易生成的日期和时间。Price:产品价格。原创 2024-11-18 15:00:04 · 10159 阅读 · 100 评论 -
数据挖掘实战-基于SARIMA时间序列模型预测阿里巴巴股票数据趋势
本实验数据集来源于Kaggle,数据集包含阿里巴巴集团控股公司(BABA)从[2020年1月1日]到[2024年5月1日]的历史股价数据。数据集包括每日开盘价、最高价、最低价和收盘价,以及调整后的收盘价和成交量。本实验利用SARIMA时间序列模型对阿里巴巴股票价格进行趋势预测,并得出以下结论:通过对阿里巴巴股票历史数据的分析和建模,我们成功地建立了SARIMA模型,能够较好地拟合股票价格的波动情况。该模型考虑了数据的季节性、自相关和移动平均性质,具有一定的预测能力和准确性。原创 2024-09-22 15:16:11 · 11905 阅读 · 88 评论 -
数据挖掘实战-基于朴素贝叶斯算法构建真假新闻分类模型
本实验数据集来源于Kaggle,合并后的数据集共有44898条,5个变量。关于数据集数据集分为两个文件:Fake.csv(23502 条假新闻文章)True.csv(21417 篇真实新闻文章)数据集列:标题:新闻文章的标题文本:新闻文章的正文主题:新闻文章的主题日期:新闻文章的发布日期。原创 2024-09-13 13:38:21 · 12309 阅读 · 93 评论 -
基于Python爬虫+机器学习的长沙市租房价格预测研究
本实验数据集来源于房天下官网,通过使用python爬虫获取了长沙市的租房数据获取了房屋租金、交付方式、房屋户型、房屋面积、装修情况、校区、地址、配套设施、房源亮点等字段信息,具体如下图所示。原创 2024-08-12 16:12:28 · 12879 阅读 · 133 评论 -
数据挖掘实战-基于Prophet时间序列模型预测阿里巴巴股票价格趋势
Prophet 是由 Facebook 开发的一个开源时间序列预测库,设计考虑了业务场景中的时间序列特点,如季节性变化、假日效应和趋势变化。Prophet 特别适合处理日级别(或以上频率)的时间序列数据,并且在处理缺失数据和异常值方面表现出色。安装学习文档github地址:https://github.com/facebook/prophet文档地址:http://facebook.github.io/prophet。原创 2024-08-02 09:02:32 · 13852 阅读 · 79 评论 -
基于文本挖掘的卡塔尔世界杯赛事网络舆情演变与趋势预测
本文通过爬取微博、B站、咪咕等视频平台上卡塔尔世界杯赛事相关博文数据和视频评论,在数据预处理中进行了基于原创文本量、点赞量、评论量、转发量、ip属地统计量的统计分析,并通过分析不同时期的相关数据量发展趋势划分了三个热点事件发展阶段,发展时期、爆发时期、消亡时期。原创 2024-06-18 17:11:01 · 9651 阅读 · 88 评论 -
数据挖掘实战-基于Catboost算法的艾滋病数据可视化与建模分析
本数据集来源于Kaggle,数据集包含有关被诊断患有艾滋病的患者的医疗保健统计数据和分类信息。该数据集最初于 1996 年发布。time:失败或审查的时间trt:治疗指标(0 = 仅 ZDV;1 = ZDV + ddI,2 = ZDV + Zal,3 = 仅 ddI)age:基线年龄(岁)wtkg:基线时的体重(公斤)hemo:血友病(0=否,1=是)homo:同性恋活动(0=否,1=是)drugs:静脉注射药物使用史(0=否,1=是)karnof:卡诺夫斯基分数(范围为 0-100)原创 2024-06-07 21:32:27 · 12191 阅读 · 53 评论 -
数据挖掘实战-基于长短期记忆网络(LSTM)的黄金价格预测模型 | 97% 准确度
本实验基于Kaggle上提供的从2013年到2023年的黄金价格数据集,运用长短期记忆网络(LSTM)构建了黄金价格预测模型。该数据集详细记录了每日的黄金价格信息,包括开盘价、收盘价、高点、低点和交易量等,为模型的训练提供了丰富的数据支持。原创 2024-06-04 08:33:51 · 16144 阅读 · 90 评论 -
数据挖掘实战-基于余弦相似度的印度美食推荐系统
印度美食由印度次大陆本土的各种地区和传统美食组成。由于土壤、气候、文化、种族和职业的多样性,这些菜肴差异很大,并使用当地可用的香料、香草、蔬菜和水果。印度食物也深受宗教(特别是印度教)、文化选择和传统的影响。本数据集来源于Kaggle,原始数据集共有255条,8个变量,各变量含义解释如下:name : 菜肴名称ingredients:主要使用成分diet:饮食类型 - 素食或非素食prep_time : 准备时间Cook_time : 烹饪时间。原创 2024-05-27 16:39:05 · 9821 阅读 · 88 评论 -
数据挖掘实战-基于内容协同过滤算法的电影推荐系统
本研究通过构建并优化基于内容协同过滤算法的电影推荐系统,成功实现了对用户个性化电影推荐需求的精准满足。实验结果表明,该系统能够结合电影内容特征和用户行为数据,为用户提供更加符合其兴趣和偏好的电影推荐。相较于单一的推荐方法,该系统展现出了更高的推荐准确性和用户满意度,从而验证了内容协同过滤算法在电影推荐系统中的有效性和优越性。原创 2024-05-24 16:24:03 · 18380 阅读 · 87 评论 -
基于Python爬虫+机器学习技术的杭州租房价格预测建模研究
本研究旨在结合Python爬虫和机器学习技术,对杭州租房价格进行预测建模与优化研究。通过抓取租房网站上的数据,提取出影响租房价格的关键因素,并利用机器学习算法构建预测模型。通过对模型的优化和验证,我们可以更加准确地预测租房价格,为租房者和房东提供有价值的参考信息,同时也为房地产市场的研究和决策提供数据支持。原创 2024-05-19 09:25:02 · 13784 阅读 · 118 评论 -
数据挖掘实战-基于决策树算法构建银行贷款审批预测模型
本数据集来源于Kaggle,在这个贷款状态预测数据集中,我们有以前根据property Loan的属性申请贷款的申请人的数据。银行将根据申请人的收入、贷款金额、以前的信用记录、共同申请人的收入等因素来决定是否向申请人提供贷款。我们的目标是建立一个机器学习模型来预测申请人的贷款被批准或被拒绝。原始数据集共有381条,13个变量。各变量含义如下:Loan_ID:唯一的贷款ID。Gender:男性或女性。Married:天气结婚(是)或不结婚(否)。Dependents:依赖于客户端的人数。原创 2024-05-13 09:45:32 · 18065 阅读 · 121 评论 -
数据挖掘实战-基于深度学习RNN+CNN的能源价格预测模型
数据集来源于Kaggle,原始数据集共有35064条,28个变量。在当今动态的能源市场中,准确预测能源价格对有效决策和资源配置至关重要。在这个项目中,我们使用先进的深度学习技术——特别是一维卷积神经网络(CNN)和循环神经网络(RNN)——深入研究预测分析领域。通过利用能源价格数据中的历史模式和依赖关系,我们的目标是建立能够高精度预测未来能源价格的模型。通过实验,我们发现每种方法都有自己的优点和局限性。SimpleRNN提供了一个简单且可解释的体系结构,但可能会与长期依赖关系作斗争。原创 2024-05-07 14:22:22 · 10856 阅读 · 0 评论
分享