云天徽上-CSDN博客

原创【数据可视化-170】2025年山东GDP大比拼 - 可视化大屏分析

2025年山东省GDP数据展现了"双核引领、多极支撑、梯度发展"的区域经济格局。青岛、济南作为两大核心城市，引领全省经济发展；烟台、潍坊、临沂等城市形成重要增长极；各城市根据自身定位和资源禀赋，形成了各具特色的发展路径。山东作为经济大省，在保持经济稳定增长的同时，正积极推进新旧动能转换，优化产业结构，提升发展质量。未来，山东需要在区域协调发展、创新驱动发展、绿色低碳发展等方面持续发力，推动经济高质量发展，为全国经济发展贡献更多山东力量。

2026-04-01 17:02:25 374

原创【数据可视化-169】2025年上海各区常住人口排行榜：一张图看懂人口流动新格局

🏙️浦东新区：超级人口引擎，引领全市⭐松江、嘉定：五大新城双星闪耀，人口增长新极点🏢中心城区：保持稳定，徐汇异军突起🌳生态涵养区：虹口、奉贤、崇明、金山，绿色发展特别值得注意的是，松江区凭借G60科创走廊的强劲动力，已超越嘉定成为五大新城人口第一；徐汇区在中心城区中表现抢眼，超越黄浦跻身前三。这些变化折射出上海人口正从"单中心"向"多中心"格局演变！人口是城市发展的基础，也是活力的源泉。未来上海将继续优化人口空间布局，推动形成与城市功能定位相匹配的人口分布格局，让每一寸土地都发挥最大价值！

2026-04-01 16:59:54 517

原创【数据可视化-168】2025年山东GDP大比拼 - 可视化大屏分析

2026-03-13 14:02:09 425

原创【数据可视化-167】2025年上海GDP区域经济大比拼 - 可视化大屏分析

2025年上海各区GDP数据展现了"一核引领、多极支撑"的区域经济格局。浦东新区作为绝对龙头，引领全市经济发展；黄浦、静安等中心城区形成高端服务集群；五大新城和郊区正成为新的增长极。各区应根据自身定位和资源禀赋，在保持特色的同时，加强区域协同，共同推动上海建设具有世界影响力的社会主义现代化国际大都市！本文数据来源于上海市各区统计局公布的2025年GDP数据，可视化图表由Pyecharts生成，分析内容仅供参考。欢迎在评论区讨论您所在区域的经济表现和发展建议！

2026-03-04 09:37:12 500

原创【数据可视化-166】基于Pyecharts的安徽省2025年各城市GDP数据多维度可视化分析

2D地图直观呈现地理分布：清晰展示了皖中强、皖江活、皖北实、皖南特的区域经济格局，颜色渐变的视觉效果让各城市GDP层级一目了然，合肥的核心地位在地理维度上直观体现；柱状图精准体现排名差异：Top10排名清晰反映了合肥的绝对领先地位和第二梯队的竞争态势，数据缩放功能便于对比分析芜湖、滁州、阜阳等城市的体量差距；玫瑰图生动展示占比关系：前8城市的GDP占比直观呈现，合肥一市贡献近三成的全省GDP，凸显核心城市对区域经济的带动作用；矩形树图清晰划分区域格局。

2026-03-03 10:47:00 891

原创【机器学习案列-41】基于LightGBM的居家办公员工倦怠分析（包括分类与回归） - 从数据分析到机器学习模型构建全流程

后疫情时代，居家办公（WFH）已成为常态化工作模式，但随之而来的员工倦怠问题逐渐凸显——工作与生活边界模糊、长时间屏幕暴露、非工作时段加班等因素，都在侵蚀员工的身心健康。本文基于合成的居家办公员工倦怠数据集（1800条每日工作记录），完整实现从数据探索分析特征工程到多模型训练评估的全流程，最终构建高精度的倦怠评分预测模型，为企业优化远程办公策略、降低员工倦怠风险提供数据支撑。字段名类型含义user_idint员工唯一标识day_typeobject日期类型（Weekday/Weekend）

2026-02-27 17:48:53 570

原创【机器学习案列-40】Kaggle案例之基于RandomForest的智能手机电池健康预测 - 从数据探索到模型构建全流程

随着智能手机的普及，电池健康问题成为用户和厂商共同关注的焦点。本文基于合成的智能手机电池健康数据集（模拟真实锂离子电池劣化规律），完整实现从数据加载清洗可视化分析特征工程到机器学习建模的全流程，最终构建高精度的电池健康预测模型。特征维度：设备使用时长、电池容量、日均亮屏时间、充电习惯、环境温度、使用强度等16个维度目标变量（当前电池健康百分比）应用场景：可用于回归预测（电池健康度）和分类任务（推荐操作：更换电池/更换手机）

2026-02-25 10:07:05 576

原创【机器学习案例-39】Kaggle案例之AI依赖与学生学业表现：数据分析与预测建模全流程

在ChatGPT、Gemini、Copilot等人工智能工具迅速普及的当下，教育领域正经历着一场前所未有的变革。人工智能辅助学习工具已经从"锦上添花"变为"日常必备"，深刻影响着学生的学习方式和学术表现。然而，一个关键问题日益凸显：AI工具的使用究竟是促进学生学业成功的神奇帮手，还是削弱独立思考能力的"双刃剑"？。本文基于8000名学生的学业表现与AI使用数据，深入分析了AI依赖度对学生学习成绩的影响，并构建了预测学生是否通过考试的机器学习模型。本博客将完整展示从数据探索、特征工程到模型训练评估的全过程。

2026-02-02 16:04:00 1063

原创【机器学习案例-38】Kaggle案例之小麦品种分类：从数据探索到模型部署的完整流程

数据集包含三种不同小麦品种（Kama、Rosa、Canadian）的物理属性数据，每种70个样本。每个小麦粒都测量了7个几何参数：4.2 特征工程策略交互特征：捕捉特征间的相互关系多项式特征：增强模型的非线性拟合能力特征选择：基于统计显著性筛选重要特征4.3 模型评估方法混淆矩阵：直观展示分类结果ROC曲线：评估各类别的分类性能交叉验证：减少过拟合风险多指标评估：全面评价模型性能五、运行结果与性能分析5.1 模型性能指标准确率：通常在90%以上F1分数：衡量精

2026-01-21 15:31:36 652 1

原创【机器学习案例-37】LSTM-XGBoost融合模型实现单变量时序预测（附完整源码与数据生成）

XGBoost残差修正模型# 准备XGBoost的输入数据# 将3D序列数据展平为2D特征矩阵# 定义XGBoost模型# train_residuals是:train_data-lstm_pred_data# 训练XGBoost模型# 使用XGBoost预测残差# 计算融合预测结果: LSTM+XGBoost残差数据生成功能：无需准备额外数据，可直接运行残差学习机制：XGBoost专门学习LSTM的预测残差全面可视化：提供丰富的图表分析模型性能端到端流程。

2026-01-20 16:37:19 815

原创【机器学习案例-36】Kaggle案例之内外向人格预测：从数据探索到机器学习模型

内外向人格是心理学中重要的人格特质之一。通过分析个人的社交行为模式，如独处时间、社交活动参与度等，可以预测其内外向性格倾向。本项目使用机器学习方法构建预测模型。id: 用户ID: 独处时间Stage_fear: 舞台恐惧程度: 社交活动参与度: 外出频率: 社交后是否疲惫: 朋友圈大小: 发帖频率: 人格类型（目标变量，0=内向，1=外向）

2026-01-14 14:00:39 728

原创【机器学习案例-35】Kaggle案例之洪水预测：从数据分析可视化到机器学习模型SVM/RF/GBDT/Xgboost/LightGBM/CatBoost的构建和模型交叉验证

洪水作为全球发生频率最高、影响范围最广的自然灾害之一，每年造成数以百亿计的经济损失和大量人员伤亡。传统的洪水预警多依赖于水文监测站的实时数据和经验判断，存在预警滞后、覆盖范围有限、精准度不足等问题。本项目旨在通过机器学习技术，整合环境、人为、基础设施、社会经济等多维度数据，构建高精度的洪水概率预测模型。本项目使用的洪水预测数据集为专业气象与地理数据机构整理的结构化数据集，具备以下特征：探索性数据分析是机器学习项目的核心前置步骤，通过可视化手段可以：相关性分析是特征筛选的关键手段，通过计算皮尔逊相关系数

2026-01-12 20:12:54 719

原创【机器学习案例-34】Kaggle案例之保险费用预测实战：从数据探索到模型构建

项目核心总结print("项目总结与改进建议")# 业务结论"1. 核心影响因素：吸烟是保费的第一决定因素（相关性0.79），其次是年龄和BMI","2. 风险组合效应：吸烟+肥胖+高龄的客户保费最高，是保险公司高风险客群","3. 模型性能：梯度提升回归最优，测试集R²达0.87，平均预测误差约3000美元","4. 特征价值：交互特征（如年龄×吸烟）能显著提升模型预测能力","5. 数据规律：保费呈右偏分布，对数变换后模型拟合效果更佳"print("\n【核心业务结论】:")

2026-01-09 16:47:25 1168

原创【机器学习案例-33】Kaggle案例之贷款违约预测实战：从EDA到（LightGBM、XgBoost和CatBoost）多模型集成

本项目旨在通过机器学习模型预测借款人的贷款偿还情况，帮助金融机构评估信贷风险。基于提供的数据集，构建了多模型集成系统，通过数据预处理、特征工程和模型融合等步骤，实现了高精度的贷款偿还预测。包含完整可运行的Python代码,需要数据和代码的可以添加关注获取。项目详情数据来源金融机构真实信贷业务历史数据（脱敏处理，保障用户隐私）数据规模训练集：593,994条记录；测试集：254,569条记录数据用途训练集：模型训练与验证；测试集：模型泛化性能评估与最终预测结果输出数据质量。

2026-01-07 16:23:02 819

原创【机器学习案例-32】Kaggle案例之基于逻辑回归和随机森林的心脏病风险预测模型实战：从EDA到模型部署（完整Python代码）

心脏病是全球致死率最高的疾病之一，根据世界卫生组织统计，心血管疾病每年导致约1790万人死亡，占全球总死亡人数的32%。在中国，心血管病患者高达3.3亿，每5例死亡中就有2例死于心血管病。面对如此严峻的公共卫生挑战，早期精准识别心脏病风险对于临床干预和患者预后至关重要。本项目旨在利用机器学习技术，基于患者的临床指标数据，构建一个高效准确的心脏病风险预测模型。这不仅有助于医生进行辅助诊断，还能为健康管理提供科学依据，实现从"治疗为主"向"预防为主"的转变。

2026-01-06 16:42:16 1117

原创【机器学习案列-31】Kaggle案例之二手车辆价格预测：从数据探索到模型部署的完整指南

本文将详细介绍如何使用机器学习预测二手车辆价格。我们将遵循完整的机器学习流程：数据探索、可视化、特征工程、模型训练和评估。本项目旨在预测二手车辆的市场价格，使用以下核心字段：本文提供的代码可直接复制到Python环境（如Jupyter Notebook、PyCharm）中运行，无需额外依赖（仅需安装常规数据分析库），步骤如下：注：博主目前收集了6900+份相关数据集，有想要的可以领取部分数据，关注下方公众号或添加微信：

2026-01-05 19:34:44 280

原创【机器学习案列-30】kaggle案例之学生考试成绩预测：机器学习全流程实践

本文将详细介绍如何使用机器学习预测学生考试成绩。我们将从数据探索、可视化、特征工程，到模型训练和评估，完整展示机器学习在学术预测中的应用。本项目基于Kaggle的"考试成绩预测数据集"，包含20,000条学生记录，涵盖学术行为、生活习惯、环境因素等多个维度。目标是预测学生的考试成绩（0-100分）。Kaggle数据集: Exam Score Prediction Dataset4.2 运行完整流程五、项目总结5.1 关键技术成果数据探索: 发现考试成绩呈正态分布，均值为62.5分特征

2026-01-05 19:33:51 147

原创【机器学习案例-29】kaggle案列之Rossmann连锁药店销售额预测：时间序列与机器学习完美融合的实战指南

德国最大连锁药店Rossmann的销售预测挑战，不仅考验我们的机器学习技能，更是一场时间序列分析的盛宴。当1115家门店的未来6周销售预测摆在面前，我们该如何从历史数据中挖掘出销售规律？罗斯曼（Rossmann）是欧洲领先的连锁药店品牌，在7个欧洲国家经营着3000多家药店，Rossmann Store Sales竞赛的核心目标：基于844,392条历史销售记录，预测德国1115家Rossmann药店未来6周的每日销售额，帮助门店经理制定有效的员工排班计划。门店经理需要提前六周预测每日销售额，但销售受多种因

2025-12-30 15:27:43 1148

原创【机器学习-28】kaggle案例之Porto Seguro汽车保险理赔预测：用XGBoost挑战基尼系数0.284+的完整实战

当保险公司通过机器学习为每位司机"量身定制"保费时，公平性不再是空谈。巴西最大保险公司Porto Seguro的Kaggle竞赛向我们展示了AI如何改变保险行业的游戏规则！Porto Seguro安全驾驶预测竞赛的核心目标：基于590,000+条保单数据，预测驾驶员在未来一年内提出理赔的概率，本质上是一个二分类的问题，从而实现公平定价。交互特征工程：XGBoost优化参数：完整评估体系：环境准备：运行完整流程：提交结果：✨ 记得点赞、收藏、关注，获取更多机器

2025-12-29 14:04:17 738

原创【机器学习案例-27】kaggle案例：Santander客户交易预测：特征工程+RF/XGB/LGB + 模型融合，手把手教你 AUC 暴涨 7 个点的实操案例

是Kaggle平台上的经典金融风控竞赛。竞赛任务是：基于匿名化的客户特征数据，预测客户未来是否会进行特定交易。数据集特点匿名性：200个特征全部匿名处理，名为var_0到var_199不平衡性：正样本（会交易）仅占10.05%大规模：20万条训练数据，20万条测试数据金融属性：反映了真实的银行客户行为模式🎯 性能提升：AUC分数从基准模型的0.7948提升到0.8686，相对提升约7.38%🔧 完整流程：实现了从数据探索、特征工程、模型训练到结果提交的完整机器学习流程📊 深度分析。

2025-12-26 10:06:15 685

原创【机器学习案例-26】纽约出租车费预测分析：从数据清洗到机器学习建模全流程

纽约出租车费预测是Kaggle上的一个经典回归预测问题。目标是根据出租车行程的起始时间、起终点经纬度坐标和乘客数量，预测出租车费用。这是一个典型的监督回归机器学习任务。通过本项目的完整实践，我们：✅数据探索：发现并处理了多种异常值✅特征工程：构建了空间、时间等多维度特征✅模型构建：实现了从基线到优化的全流程✅业务洞察：揭示了影响出租车费的关键因素最终成绩验证集RMSE：3.37美元相对于基线提升：64%预测准确率（±2美元）：72%

2025-12-23 21:36:14 692 3

原创【数据可视化-165】31省份出生人口数量一览，最能生娃省份排名来了

本文通过2D地图、柱状图、玫瑰图和矩形树图四种可视化方式，全面分析了中国各省市2024年出生人口的分布情况。2D地图直观展示了出生人口的地理分布，采用分段式色块清晰呈现了各人口区间的区域分布，凸显了广东、河南等人口大省的突出地位。柱状图清晰呈现了各省市的出生人口排名，通过颜色渐变突出了人口梯度的层次性，直观展示了广东遥遥领先、各省差异显著的格局。玫瑰图生动显示了主要地区的出生人口占比，直观反映了人口集中度和区域贡献度，广东一省贡献了全国11.8%的出生人口。矩形树图通过面积大小直观比较了各地区的相对重要性。

2025-12-19 14:37:35 1068

原创【数据可视化-164】考研人数被考公反超：历史性转折的高级折线图分析

🧑 博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍：① 群内初中生、高中生、本科生、研究生、博士生遍布，可互相学习，交流困惑。② 热榜top10的常客也在群里，也有数不清的万粉大佬，可以交流写作技巧，上榜经验，涨粉秘籍。③ 群内也有职场精英，大厂大佬，可交流技术、面试、找工作的经验。

2025-12-19 11:25:55 744

原创【数据可视化-163】2024年中国各省猪肉产量全方位可视化分析

地图数据标准化：使用简化的省份名称3D图表优化：合理设置旋转参数和视角颜色方案设计：根据数据特点选择渐变色交互功能增强：自定义提示框和点击事件。

2025-12-09 17:39:48 667

原创【数据可视化-162】数据见证大爱！企业捐款驰援香港数据可视化分析（Pyecharts实现）

我们学会了用数据讲述爱心故事，用可视化传递人间温暖。大爱无言，但数据有声；爱心无形，但可视化有形。中华民族一家亲，大爱驰援香港。这不仅是技术的展示，更是爱心的传递，是社会责任的彰显，是民族情怀的表达。爱心不分大小，善举不分先后——无论捐赠多少，每一份都是对香港同胞的深情厚谊，每一笔都是企业社会责任的生动体现。我们学会了用数据讲述爱心故事，用可视化传递人间温暖。大爱无言，但数据有声；爱心无形，但可视化有形。中华民族一家亲，大爱驰援香港。这不仅是技术的展示，更是爱心的传递，是社会责任的彰显，是民族情怀。

2025-12-09 17:37:51 1290

原创【数据可视化-161】微博热议：最高检婚前同居认定家庭成员，5000+用户评论数据生成与深度分析

通过5000条微博评论数据的多维度可视化分析，我们清晰地看到了公众对最高检新政策的复杂态度。虽然存在不同声音，但主流意见支持这一法治进步，体现了社会对法律与时俱进的期待。正如某位网友评论“法律的温度不在于它的严厉，而在于它对每一个人的关怀。这一步，让我们看到了法治的进步和社会的温暖。技术的价值在于让数据说话，让分析更有力量。本文展示的可视化分析方法，不仅适用于政策评估，也可广泛应用于社会舆情分析、市场调研等领域。技术栈数据规模：5000条模拟微博评论可视化特色：可拖拽大屏 + 现代化配色 + 多维度分析。

2025-12-02 13:19:42 693

原创【数据可视化-160】全运会金牌榜可视化分析：山东五连冠霸业，下届湖南见！

2025-11-26 16:33:37 500

原创【数据可视化-159】全运会最新金牌榜：山东44金稳居榜首，浙江40金飙升第二，广东降至第三！

"""创建最终排名预测分析"""# 模拟最终预测（基于当前趋势）region = row['地区']current_gold = row['金牌']# 简单预测模型：基于当前排名和趋势if region == '山东':predicted = current_gold + 5 # 强势收尾trend = "🏆 稳居第一"elif region == '广东':predicted = current_gold + 6 # 东道主发力trend = "🔥 全力追赶"

2025-11-21 20:49:18 974 1

原创【数据可视化-158】2025年中国科学院院士增选全景可视化分析：73位顶尖科学家的分布图谱

通过对2025年中国科学院新当选院士数据的多维度可视化分析，我们清晰看到了中国科技人才队伍建设的显著成就。年轻化、性别均衡、前沿领域集中、机构分布广泛成为本次院士增选的突出特点，体现了我国科技事业的蓬勃发展和人才战略的成功实施。技术说明：本文使用Pyecharts进行数据可视化，所有图表支持交互操作。数据基于2025年11月21日中国科学院官方公布的院士名单。

2025-11-21 20:48:19 1319

原创【数据可视化-157】历届全运会足球项目奖牌分布可视化分析报告

2025-11-19 13:29:22 1328 1

原创【数据可视化-156】第十五届全运会各省参赛运动员规模可视化分析报告

2025-11-15 14:20:29 1007

原创【数据可视化-155】第十五届全运会乒乓球男单半决赛：樊振东VS王楚钦技术分析报告

2025-11-15 14:18:46 1924

原创【数据可视化-154】广东省民营企业百强分布：pyecharts可视化打造黑色科技风交互大屏

本项目通过pyecharts实现了广东省民营企业百强分布的多维度可视化，黑色科技风设计既保证了视觉冲击力，又突出了数据本身。五大图表从空间分布、城市排名、层级结构、区域差异和经济关联五个角度，全面揭示了广东民营经济的发展格局。

2025-11-12 22:25:20 1103 1

原创【数据可视化-153】中国水泥产量分布：pyecharts可视化打造黑色科技风数据大屏

本项目通过pyecharts实现了中国水泥产量的多维度可视化，黑色科技风设计既保证了专业数据展示的严肃性，又通过鲜明色彩对比增强了视觉吸引力。四大图表从空间分布、省际排名、梯队结构和区域差异四个角度，全面揭示了我国水泥生产的地理格局与经济关联。

2025-11-12 22:24:40 841

原创【数据可视化-152】中国水产品产量分布：pyecharts打造黑色科技风数据大屏

本项目通过pyecharts实现了中国水产品产量的多维度可视化，黑色科技风设计既保证了数据展示的专业性，又通过鲜明的色彩对比增强了视觉吸引力。四大图表从空间分布、省际排名、梯队结构和区域差异四个角度，全面揭示了我国水产品生产的地理格局与资源关联。

2025-11-12 22:24:13 821

原创【数据可视化-151】福建省民营企业100强分布可视化大屏

本文通过2D地图、3D渐变柱状图、多层环形图、极坐标雷达图和气泡图五种创新可视化方式，全面分析了福建省民营企业100强的分布情况。2D地图直观展示了民营企业数量的地理分布，清晰呈现了"沿海集聚、内陆薄弱"的格局3D渐变柱状图生动呈现了各市的排名情况，突出了福州、厦门、泉州的"三核驱动"多层环形图创新展示了企业层次的分布结构，反映了民营经济发展的梯度特征极坐标雷达图全面对比了五大区域的经济实力，显示了闽南地区的相对优势气泡图通过大小和颜色直观展示了企业数量与经济发展的正相关关系。

2025-11-12 22:23:43 1013

原创【数据可视化-150】浙江省百强企业分布可视化分析：基于Pyecharts的多维度数据洞察

本文通过2D地图、柱状图、饼图、雷达图和词云图五种可视化方式，全面分析了浙江省百强企业的分布情况。这些图表从不同角度揭示了浙江省企业发展的区域特征和层级结构。

2025-11-12 22:23:02 807

原创【数据可视化-149】湖北省民营企业100强分布可视化分析

本文通过2D地图、柱状图、玫瑰图和矩形树图四种可视化方式，全面分析了湖北省民营企业100强的分布情况。2D地图直观展示了民营企业数量的地理分布，清晰呈现了武汉的核心地位和其他城市的相对位置柱状图清晰呈现了各城市的排名情况，突出了发展梯队的层次性玫瑰图生动显示了各城市在总体中的占比，直观反映了武汉的绝对优势矩形树图通过面积大小直观比较了各城市的相对重要性，凸显了区域发展的不平衡性。

2025-11-12 22:21:37 605

原创【数据可视化-148】2025年中国各省市牛奶产量分布可视化分析

本文通过2D地图、柱状图、玫瑰图和矩形树图四种可视化方式，全面分析了中国各省市牛奶产量的分布情况。2D地图直观展示了牛奶产量的地理分布，采用分段式色块清晰呈现了各产量区间的区域分布柱状图清晰呈现了各省市的产量排名，通过颜色渐变突出了产量梯度的层次性玫瑰图生动显示了主要产区的产量占比，直观反映了产业集中度和区域贡献度矩形树图通过面积大小直观比较了各地区的相对重要性，凸显了核心产区的主导地位。

2025-11-12 22:20:31 1115

原创【数据可视化-147】第15届全运会即时金牌榜可视化分析报告

2025-11-12 22:03:18 1980 3

信用卡欺诈检测数据集，和机器学习特征筛选：提升模型性能的关键步骤中的特征筛选代码案列

信用卡欺诈检测数据集，和”【机器学习】特征筛选：提升模型性能的关键步骤“中的特征筛选代码案列

2024-04-22

机器学习/数据挖掘/数据分析 + pyecharts/seaborn/matplotlib + 二手房分析 + 数据可视化展示

资源描述：本资源为机器学习、数据挖掘和数据分析领域的项目，旨在通过使用Python库（包括pyecharts、seaborn和matplotlib）对二手房数据进行分析和可视化展示。项目的主要目标是挖掘二手房数据背后的隐藏信息，并通过数据可视化的方式呈现这些信息，以便更好地理解和解释二手房市场的特点和趋势。在这个项目中，我们使用了pyecharts库来生成各种图表和图形，包括动态图、地理图和热力图等，以展示二手房数据的空间分布和变化趋势。pyecharts基于百度开源的Echarts图表库，提供了丰富的图表类型和交互功能，使得数据的可视化呈现更加生动和具有吸引力。同时，我们还使用了seaborn和matplotlib库来绘制统计图表、直方图、箱线图等，以及进行数据探索和分析。这些库提供了丰富的数据可视化工具和函数，使得我们能够更好地理解数据的分布、关系和趋势。通过使用这些库和工具，我们可以对二手房数据进行处理、清洗、分析和可视化，从而揭示出二手房市场的一些重要特征，如价格分布、地区分布、房型偏好等。

2024-03-23

机器学习推荐系统相似度计算

西雅图酒店数据集，基于用户选择的酒店，为其推荐相似度高的Top10个其他酒店。

2024-03-13

机器学习 + lightgbm/贝叶斯优化/k折交叉验证 + 基于贝叶斯最优化过程 + 优化模型的代码

资源描述内容概要本资源提供了基于LightGBM模型的贝叶斯优化过程的代码实现。通过使用贝叶斯优化算法，本代码可以高效地调整LightGBM模型的超参数，以达到优化模型性能的目的。同时，代码中还集成了k折交叉验证机制，以更准确地评估模型性能，并减少过拟合的风险。适用人群机器学习爱好者与从业者数据科学家数据分析师对LightGBM模型和贝叶斯优化算法感兴趣的研究者使用场景及目标当需要使用LightGBM模型解决分类或回归问题时，可以使用本资源中的代码进行模型超参数的优化。希望通过自动化手段调整模型参数，以提高模型预测精度或降低计算成本的场景。在模型开发过程中，需要快速找到最优超参数组合，以加快模型开发进度。其他说明代码使用了Python编程语言，并依赖于LightGBM、Scikit-learn等机器学习库。代码中提供了详细的注释和说明，方便用户理解和使用。用户可以根据自身需求，修改代码中的参数和配置，以适应不同的应用场景。

2024-03-08

机器学习/工业制造 + ML/xgboost + 异烟酸在生成过程中的各个参数的优化来预测最终的收率

内容概要：本资源包含异烟酸生成过程中各个参数的优化数据集及相应的预测代码。数据集详细记录了不同生产条件下的异烟酸生成参数，如温度、压力、反应物浓度等，以及对应的最终收率。同时，提供了基于机器学习的预测模型代码，用于根据给定参数预测异烟酸的收率。通过此资源，用户可以深入了解异烟酸生成过程中的参数影响，优化生产条件，提高收率。适用人群：化学工程及工艺领域的研究人员化工企业技术人员数据分析师和机器学习爱好者使用场景及目标：在实验室研究阶段，通过调整数据集中的参数，观察收率变化，为优化实验条件提供依据。在工业生产中，利用预测模型对生产条件进行快速评估，找到最佳生产参数组合，提高异烟酸的收率。在教学培训中，作为案例素材，帮助学生理解化学工程中的参数优化及机器学习应用。其他说明：数据集已经过预处理和标准化，方便用户直接使用。预测代码基于Python编写，使用了常用的机器学习库，易于理解和修改。本资源提供免费下载和使用，但请尊重原创，不得用于商业盈利。

2024-03-07

机器学习 + lightgbm/网格搜索交叉验证 + 贷款违约预测(二分类模型） + 预测一个用户是否会产生违约

内容概要：本数据集专注于贷款违约预测问题，包含了大量借款人的个人信息、财务状况等多元数据。旨在帮助研究者、金融机构和数据分析师更准确地预测贷款违约风险，为贷款审批、风险管理和信用评估提供有力支持。适用人群：金融风控领域的研究人员、金融机构信贷部门人员、数据分析师与机器学习工程师。使用场景及目标：贷款审批流程优化：通过模型预测，快速识别潜在的高风险借款人，提高审批效率，减少不良贷款的发生。风险预警与监控：实时监控借款人的信用状况变化，对可能出现违约的借款人进行及时预警，采取相应的风险控制措施。信用评分系统开发：基于数据集构建信用评分模型，为借款人提供客观、公正的信用评分，辅助金融机构进行贷款定价和额度设定。其他说明：数据集已经过脱敏处理，确保个人隐私信息安全。

2024-03-07

深度学习/NLP + BERT-CRF + 实体识别 + 医学糖尿病数据命名实体识别

内容概要：医学糖尿病数据命名实体识别项目是一个专注于从医学文本中自动识别和提取与糖尿病相关的命名实体的项目。该项目包括一个经过精心标注的糖尿病数据集，该数据集涵盖了各种医学文献和临床记录中的糖尿病相关术语，如疾病名称、症状、药物、检查项目等。此外，项目还提供了一套实现代码，用于训练命名实体识别模型，并对新的医学文本进行自动标注。适用人群：本资源适用于对医学自然语言处理（NLP）感兴趣的研究人员、数据科学家、医学专家以及开发者。使用场景及目标：医学文献挖掘、临床决策支持、药物研发与监管；其他说明：数据集说明：数据集经过专业医学人员的标注和审核，确保标注的准确性和一致性。同时，数据集的规模和多样性也经过精心设计，以满足不同应用场景的需求。实现代码说明：代码采用主流的深度学习框架编写，具有良好的可扩展性和可定制性。用户可以根据自己的需求对代码进行修改和优化，以适应不同的任务和数据集。使用指南：项目提供详细的使用指南和技术文档，帮助用户快速上手和使用本资源。

2024-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

信用卡欺诈检测数据集，和机器学习特征筛选：提升模型性能的关键步骤中的特征筛选代码案列

机器学习/数据挖掘/数据分析 + pyecharts/seaborn/matplotlib + 二手房分析 + 数据可视化展示

机器学习 推荐系统 相似度计算

机器学习 + lightgbm/贝叶斯优化/k折交叉验证 + 基于贝叶斯最优化过程 + 优化模型的代码

机器学习/工业制造 + ML/xgboost + 异烟酸在生成过程中的各个参数的优化来预测最终的收率

机器学习 + lightgbm/网格搜索交叉验证 + 贷款违约预测(二分类模型） + 预测一个用户是否会产生违约

深度学习/NLP + BERT-CRF + 实体识别 + 医学糖尿病数据命名实体识别

空空如也

机器学习推荐系统相似度计算