2025年04月_云天徽上

05月 04月 03月 02月 01月

原创【数据可视化-45】基于Plotly的医疗保健数据集可视化分析

Name：患者姓名Age：患者年龄Gender：患者性别Blood Type：患者血型：患者医疗状况：入院日期Doctor：主治医生Hospital：医院名称：保险公司：账单金额：病房号：入院类型：出院日期Medication：用药情况：检查结果：住院时长（天）

2025-04-30 10:46:16 586 1

原创【数据可视化-44】2024福布斯全球2000强企业排行榜

🧑 博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍：① 群内初中生、高中生、本科生、研究生、博士生遍布，可互相学习，交流困惑。② 热榜top10的常客也在群里，也有数不清的万粉大佬，可以交流写作技巧，上榜经验，涨粉秘籍。③ 群内也有职场精英，大厂大佬，可交流技术、面试、找工作的经验。

2025-04-29 09:31:00 1507 3

原创【数据可视化-43】视频游戏销售数据集可视化分析

Rank：游戏总销量的排名。Name：游戏的名称。Platform：游戏发行的平台。Year：游戏发行的年份。Genre：游戏的类型。Publisher：游戏的发行商。NA_Sales：游戏在北美地区的销量。EU_Sales：游戏在欧洲地区的销量。JP_Sales：游戏在日本地区的销量。：游戏在其他地区的销量。：游戏的全球总销量。

2025-04-29 09:30:44 892

原创【数据可视化-42】杂货库存数据集可视化分析

产品名称Category：产品类别：供应商名称：仓库位置Status：产品状态（Active/Discontinued/Backordered）Product_ID：产品ID：供应商ID：入库日期：最后订购日期：有效期：库存数量：再订购阈值：再订购数量Unit_Price：单价：销售量：库存周转率Percentage：百分比。

2025-04-28 09:35:18 1106 2

原创【数据可视化-41】15年NVDA， AAPL， MSFT， GOOGL & AMZ股票数据集可视化分析

Date：交易日期Close_AAPL：苹果收盘价Close_AMZN：亚马逊收盘价：谷歌收盘价Close_MSFT：微软收盘价Close_NVDA：英伟达收盘价High_AAPL：苹果最高价High_AMZN：亚马逊最高价High_GOOGL：谷歌最高价High_MSFT：微软最高价High_NVDA：英伟达最高价Low_AAPL：苹果最低价Low_AMZN：亚马逊最低价Low_GOOGL：谷歌最低价Low_MSFT：微软最低价Low_NVDA：英伟达最低价。

2025-04-28 09:28:30 982

原创【数据可视化-40】Amazon 销售数据集可视化分析

product_id：产品ID：产品名称category：产品类别：折扣价：原价：折扣百分比rating：产品评分：评分人数：产品描述user_id：用户IDuser_name：用户名review_id：评论ID：评论标题：评论内容img_link：产品图片链接：产品页面链接。

2025-04-28 09:22:19 746

原创【数据可视化-39】2009-2019年亚马逊50大畅销书数据集可视化分析

Name：书名Author：作者：亚马逊用户评分Reviews：评论数Price：价格Year：上榜年份Genre：类型（小说或非小说）

2025-04-27 14:17:36 591 1

原创【数据可视化-38】基于Plotly得泰坦尼克号数据集的多维度可视化分析

特征名称描述乘客编号Survived0 = 湍亡，1 = 生存Pclass客舱等级（1 = 一等舱，2 = 二等舱，3 = 三等舱）Name乘客姓名Sex性别Age年龄SibSp兄弟姐妹 / 配偶数量Parch父母 / 子女数量Ticket票号Fare票价Cabin客舱Embarked登船港口（C = 樱堡，Q = 女王镇，S = 南安普顿）

2025-04-27 14:17:07 1054

原创【数据可视化-37】基于Plotly的机动车维修和拖车数据集可视化分析

注册类型：公司名称Trade Name：商号：企业地址：企业地址2City：城市State：州Zip：邮政编码：电话号码：ASE认证技师数量：拖车存储地址：拖车存储地址2：拖车存储城市：拖车存储州：拖车存储邮政编码：拖车存储电话Issue Date：发证日期Expiration：到期日期：注册编号Location：位置。

2025-04-27 14:16:53 578

原创【数据可视化-36】基于pyecharts的学生成绩数据集可视化分析

gender：学生性别：学生种族/民族：父母教育水平lunch：午餐类型：是否参加测试准备课程math score：数学成绩：阅读成绩：写作成绩。

2025-04-26 11:54:23 1315 7

原创【数据可视化-35】全球太空探索数据集（2000-2025）可视化分析

Country：参与太空任务的国家Year：任务年份（2000-2025）：任务名称：载人或无人任务：发射地点：通信/导航/研究卫星：任务预算：任务成功率：使用的技术（如可重复使用火箭、AI导航、太阳能推进）：环境影响（低/中/高）：合作国家：任务时长（天）

2025-04-26 11:50:59 686

原创【数据可视化-34】全球音乐流媒体趋势与听众洞察可视化分析

User_ID：用户唯一标识符Age：用户年龄Country：用户所在国家：使用的流媒体平台Top Genre：用户最常收听的音乐类型：每日平均收听时长：用户播放最多的艺术家：订阅类型（免费或付费）：用户收听高峰时段（早晨/下午/晚上）：自动生成播放列表的播放百分比：频繁重复播放歌曲的百分比年龄与收听时长：通常存在一定的非线性关系，不同年龄段的收听习惯差异明显。订阅类型：付费用户通常具有更长的收听时长，反映出付费用户的高粘性。平台差异。

2025-04-26 11:46:36 845

原创【数据可视化-33】病毒式社交媒体潮流与用户参与度可视化分析

Post_ID：每条社交媒体帖子的唯一标识符Platform：社交媒体平台（TikTok, Instagram, Twitter, YouTube）Hashtag：与帖子相关的热门标签：内容类型（Reel, Video, Post, Shorts, Tweet 等）Region：帖子获得 traction 的国家Views：帖子获得的总浏览量LikesShares：帖子被分享的次数Comments：帖子获得的评论数：互动水平分类：低、中、高平台差异显著。

2025-04-25 16:32:40 807

原创【数据可视化-32】全球住房市场分析（2015-2024 年）数据集可视化分析

Country：记录住房市场数据的国家Year：观测年份：房屋平均价格（美元）Rent Index：房产中位月租金（美元）：中位房价与中位收入的比率：平均抵押贷款利率百分比：年通货膨胀率百分比：年GDP增长率百分比：年人口增长率百分比：城市化率百分比（居住在城市地区的人口比例）房价与租金正相关：房屋价格指数与租金指数通常呈正相关关系，房价较高的国家租金也较高。负担能力差异显著：不同国家的住房负担能力差异明显，房价越高，负担能力比率通常越低。经济因素影响复杂。

2025-04-25 09:10:40 1020 1

原创【数据可视化-31】帕尔默群岛（南极洲）企鹅数据集可视化分析

species：企鹅物种（Chinstrap、Adélie 或 Gentoo）island：企鹅所在的岛屿：喙部长度（毫米）：喙部深度（毫米）：鳍长度（毫米）：体重（克）sex：企鹅性别物种分布不均：Gentoo企鹅数量较多，Chinstrap企鹅数量相对较少，且不同岛屿上物种分布差异显著。身体特征差异：不同物种的企鹅在喙部长度、深度、鳍长度和体重等身体特征上存在显著差异，Gentoo企鹅在鳍长度和体重上均占据优势。性别比例均衡：除部分缺失值外，各物种企鹅的性别比例相对均衡。

2025-04-25 09:10:30 793

原创【数据可视化-30】Netflix电影和电视节目数据集可视化分析

show_id：每部电影或电视节目的唯一标识符type：内容类型（电影或电视节目）title：电影或电视节目的标题director：电影导演cast：参与的演员country：内容制作国家date_added：在Netflix上的上架日期：内容的实际发布年份rating：内容的电视分级duration：时长（分钟）或季数内容类型分布不均：电视节目数量多于电影，且增长趋势更为明显。国家制作差异显著：美国是内容制作的主力军，其他国家制作内容较少，但各有特色。分级与内容类型关联紧密。

2025-04-24 21:53:25 1008

原创【数据可视化-29】食物营养成分数据可视化分析

food：食物名称（唯一标识符）：碳水化合物含量Sugars：糖分含量：膳食纤维含量Fat：脂肪含量Protein：蛋白质含量Calcium：钙含量Iron：铁含量Sodium：钠含量Vitamin C：维生素C含量：叶酸含量：卡路里含量（千卡）卡路里分布不均：少数高热量食物贡献了大部分热量，需注意平衡摄入。营养素分布差异显著：不同营养素在各类食物中的分布极不均匀，例如蛋白质在肉类和豆类中含量高，而蔬果中相对较低。营养素相关性复杂。

2025-04-24 20:47:51 1195

原创【数据可视化-28】2017-2025 年每月产品零售价数据可视化分析

Year：参考年份Month：参考月份GEO：地理区域（编码为Province 1、Province 2等）Products：零售产品的名称COORDINATE：产品内部坐标标识符VALUE：每单位产品的原始价格（税前）UOM：计量单位（例如，美元）Taxable：产品是否应税，'Yes’为是，'No’为否：基于省份或加拿大平均的总税率（%）：应税产品含税价格，不应税产品则与VALUE相同：产品的高级别分类Essential：产品属于基本需求还是非基本需求地区价格差异显著。

2025-04-24 17:11:58 1204

原创【数据可视化-27】全球网络安全威胁数据可视化分析（2015-2024）

国家：发生攻击的国家年份：事件发生年份（2015-2024）威胁类型：网络安全威胁类型（如恶意软件、DDoS等）攻击类型攻击方法：（如网络钓鱼、SQL注入等）目标行业：目标行业（如金融、医疗保健等）数据泄露量（GB）：数据量受损财务影响（$M）：估计经济损失（百万美元）安全漏洞类型：例如，零日漏洞、SQL 注入漏洞响应时间（小时）：缓解攻击所花费的时间缓解策略：采取的对策攻击事件逐年增长：尤其在近几年，网络安全威胁呈现快速上升趋势，企业需加强防护能力。行业差异显著。

2025-04-24 16:18:10 1073

原创【数据可视化-26】基于人口统计与社会经济数据的多维度可视化分析

ID：唯一标识符性别：0（女性）和1（男性）婚姻状况：单身或非单身年龄：个人年龄教育程度：最高学历收入：年收入职业：工作分类定居点规模：居住区域类型。

2025-04-24 09:01:42 936 1

原创【数据可视化-25】时尚零售销售数据集的机器学习可视化分析

整数类型，每个客户的唯一标识符。：字符串类型，购买的时尚商品的名称。：浮点数类型，商品的购买价格（以美元为单位），存在650个缺失值。：字符串类型，购买日期（格式：DD-MM-YYYY）。：浮点数类型，买家评论评分（1到5分）。：字符串类型，使用的付款方式（如信用卡、现金等）。

2025-04-24 08:59:35 1123

原创【数据可视化-24】巧克力销售数据的多维度可视化分析

2025-04-23 15:31:36 1467

原创【数据可视化-23】学生习惯与学习成绩之间的关系可视化

通过上述可视化分析，我们可以更深入地了解学生的生活和学习习惯与学习成绩之间的关系。这些发现可以帮助教育工作者和家长更好地指导学生，提高他们的学习效果。该数据集和代码为理解学生习惯与学习成绩之间的关系提供了一个良好的起点。

2025-04-23 09:59:21 914

原创【数据可视化-22】脱发因素探索的可视化分析

家族遗传：有秃头家族史的人群脱发风险较高。营养状况：缺乏锌、维生素D等营养素的人群更容易脱发。年龄和压力：年龄增长和中等压力水平可能增加脱发风险。需要注意的是，部分因素如不良护发习惯与脱发的关系并不显著，这可能需要进一步的分析和研究来验证。希望本篇博客能为读者提供有价值的参考！

2025-04-22 17:08:09 954 1

原创【数据可视化-21】水质安全数据可视化：探索化学物质与水质安全的关联

本数据集包含7999条模拟水质记录，涵盖多种化学物质的浓度测量值，以及一个指示水样是否安全的分类变量。化学物质包括铝、氨、砷、钡、镉等，每种物质都有对应的安全阈值。

2025-04-22 17:05:59 785

原创【机器学习案列-21】基于 LightGBM 的智能手机用户行为分类

User ID：用户唯一标识符：智能手机型号：操作系统类型：每日应用使用时间：屏幕开启时间：电池消耗量：安装的应用程序数量：每日数据耗用量Age：用户年龄Gender：用户性别：用户行为类别标签（1-5个等级）

2025-04-22 15:13:57 1011

原创【数据可视化-21】水质安全数据可视化：探索化学物质与水质安全的关联

2025-04-22 09:05:36 400 2

原创【数据可视化-20】员工离职数据可视化：洞察离职趋势与关键因素

特征名称说明类型员工对公司的满意度float64绩员工上次KPI评分float64同时处理的项目数int64平均每个月的工作时间int64在公司的时间int64是否出现过工作事故int64left是否离开int64最近5年是否升职int64sales员工部门objectsalary薪资等级object。

2025-04-21 14:29:46 557

原创【数据可视化-19】智能手机用户行为可视化分析

通过以上可视化分析，我们可以清晰地看到不同用户行为类别的特征分布。这些分析结果不仅有助于理解用户的使用习惯，还可以为手机制造商优化产品设计、运营商制定更智能的流量套餐方案提供数据支持，并为后续用户行为分类提供依据。

2025-04-20 12:05:14 968 1

原创【机器学习案例-20】飞机航班延误的分类预测：基于 CatBoost 的完整实战

539383 个实例和 8 个不同的特征。目的是在给定预定起飞信息的情况下预测给定航班是否会延误。Airline：航空公司Flight：航班号：起飞机场AirportTo：到达机场DayOfWeek：星期几Time：起飞时间Length：飞行时长Delay：是否延误（目标变量）数据集中无缺失值和重复值，因此无需进行额外的预处理。通过本文的实战指南，我们成功构建了一个基于 CatBoost 的航班延误分类预测模型，并通过五折交叉验证提高了模型的稳定性和泛化能力。

2025-04-17 09:49:19 834 1

原创【机器学习案例-17】基于XGBoost的垃圾短信分类：从零开始的实战指南

特征名称说明类型Label是否为垃圾短信二分类Text短信内容文本型数据集中存在少量缺失值和重复值，我们将进行相应的预处理。通过本文的实战指南，我们成功构建了一个基于XGBoost的垃圾短信分类模型。尽管模型在垃圾短信识别上还有提升空间，但通过超参数优化和交叉验证等方法，我们可以进一步提高模型的性能。希望本文能为大家提供一个清晰的实战思路，帮助大家在实际项目中应用机器学习技术。

2025-04-15 16:28:26 1042 1

原创【机器学习案例-16】员工离职预测：从数据探索到模型构建完整流程解析

2025-04-14 10:49:29 1139 1

原创【机器学习案列-15】基于LightGBM算法的互联网防火墙异常行为检测：数据不平衡的解决方案

2025-04-08 15:35:45 1515 11

原创合合信息TextIn大模型加速器2.0：图表解析能力的横向测评

● 简介：TextIn是合合信息旗下的一站式OCR服务平台，提供多种文档处理和图像识别服务，包括通用识别、票据识别、企业证照识别等。近期，TextIn上线了图表解析功能，能够智能解析多种图表类型，并以Excel格式输出。● 图表解析能力：支持饼图、折线图、柱状图、雷达图、散点图等多种图表类型。能够准确提取图表中的关键数据点、坐标轴信息、图例说明等，并将其还原为结构化数据。通过本次横向测评，可以看出合合信息TextIn大模型加速器 2.0在图表解析方面具有明显优势。

2025-04-01 11:15:57 1733 14

信用卡欺诈检测数据集，和机器学习特征筛选：提升模型性能的关键步骤中的特征筛选代码案列

信用卡欺诈检测数据集，和”【机器学习】特征筛选：提升模型性能的关键步骤“中的特征筛选代码案列

2024-04-22

机器学习/数据挖掘/数据分析 + pyecharts/seaborn/matplotlib + 二手房分析 + 数据可视化展示

资源描述：本资源为机器学习、数据挖掘和数据分析领域的项目，旨在通过使用Python库（包括pyecharts、seaborn和matplotlib）对二手房数据进行分析和可视化展示。项目的主要目标是挖掘二手房数据背后的隐藏信息，并通过数据可视化的方式呈现这些信息，以便更好地理解和解释二手房市场的特点和趋势。在这个项目中，我们使用了pyecharts库来生成各种图表和图形，包括动态图、地理图和热力图等，以展示二手房数据的空间分布和变化趋势。pyecharts基于百度开源的Echarts图表库，提供了丰富的图表类型和交互功能，使得数据的可视化呈现更加生动和具有吸引力。同时，我们还使用了seaborn和matplotlib库来绘制统计图表、直方图、箱线图等，以及进行数据探索和分析。这些库提供了丰富的数据可视化工具和函数，使得我们能够更好地理解数据的分布、关系和趋势。通过使用这些库和工具，我们可以对二手房数据进行处理、清洗、分析和可视化，从而揭示出二手房市场的一些重要特征，如价格分布、地区分布、房型偏好等。

2024-03-23

机器学习推荐系统相似度计算

西雅图酒店数据集，基于用户选择的酒店，为其推荐相似度高的Top10个其他酒店。

2024-03-13

机器学习 + lightgbm/贝叶斯优化/k折交叉验证 + 基于贝叶斯最优化过程 + 优化模型的代码

资源描述内容概要本资源提供了基于LightGBM模型的贝叶斯优化过程的代码实现。通过使用贝叶斯优化算法，本代码可以高效地调整LightGBM模型的超参数，以达到优化模型性能的目的。同时，代码中还集成了k折交叉验证机制，以更准确地评估模型性能，并减少过拟合的风险。适用人群机器学习爱好者与从业者数据科学家数据分析师对LightGBM模型和贝叶斯优化算法感兴趣的研究者使用场景及目标当需要使用LightGBM模型解决分类或回归问题时，可以使用本资源中的代码进行模型超参数的优化。希望通过自动化手段调整模型参数，以提高模型预测精度或降低计算成本的场景。在模型开发过程中，需要快速找到最优超参数组合，以加快模型开发进度。其他说明代码使用了Python编程语言，并依赖于LightGBM、Scikit-learn等机器学习库。代码中提供了详细的注释和说明，方便用户理解和使用。用户可以根据自身需求，修改代码中的参数和配置，以适应不同的应用场景。

2024-03-08

机器学习/工业制造 + ML/xgboost + 异烟酸在生成过程中的各个参数的优化来预测最终的收率

内容概要：本资源包含异烟酸生成过程中各个参数的优化数据集及相应的预测代码。数据集详细记录了不同生产条件下的异烟酸生成参数，如温度、压力、反应物浓度等，以及对应的最终收率。同时，提供了基于机器学习的预测模型代码，用于根据给定参数预测异烟酸的收率。通过此资源，用户可以深入了解异烟酸生成过程中的参数影响，优化生产条件，提高收率。适用人群：化学工程及工艺领域的研究人员化工企业技术人员数据分析师和机器学习爱好者使用场景及目标：在实验室研究阶段，通过调整数据集中的参数，观察收率变化，为优化实验条件提供依据。在工业生产中，利用预测模型对生产条件进行快速评估，找到最佳生产参数组合，提高异烟酸的收率。在教学培训中，作为案例素材，帮助学生理解化学工程中的参数优化及机器学习应用。其他说明：数据集已经过预处理和标准化，方便用户直接使用。预测代码基于Python编写，使用了常用的机器学习库，易于理解和修改。本资源提供免费下载和使用，但请尊重原创，不得用于商业盈利。

2024-03-07

机器学习 + lightgbm/网格搜索交叉验证 + 贷款违约预测(二分类模型） + 预测一个用户是否会产生违约

内容概要：本数据集专注于贷款违约预测问题，包含了大量借款人的个人信息、财务状况等多元数据。旨在帮助研究者、金融机构和数据分析师更准确地预测贷款违约风险，为贷款审批、风险管理和信用评估提供有力支持。适用人群：金融风控领域的研究人员、金融机构信贷部门人员、数据分析师与机器学习工程师。使用场景及目标：贷款审批流程优化：通过模型预测，快速识别潜在的高风险借款人，提高审批效率，减少不良贷款的发生。风险预警与监控：实时监控借款人的信用状况变化，对可能出现违约的借款人进行及时预警，采取相应的风险控制措施。信用评分系统开发：基于数据集构建信用评分模型，为借款人提供客观、公正的信用评分，辅助金融机构进行贷款定价和额度设定。其他说明：数据集已经过脱敏处理，确保个人隐私信息安全。

2024-03-07

深度学习/NLP + BERT-CRF + 实体识别 + 医学糖尿病数据命名实体识别

内容概要：医学糖尿病数据命名实体识别项目是一个专注于从医学文本中自动识别和提取与糖尿病相关的命名实体的项目。该项目包括一个经过精心标注的糖尿病数据集，该数据集涵盖了各种医学文献和临床记录中的糖尿病相关术语，如疾病名称、症状、药物、检查项目等。此外，项目还提供了一套实现代码，用于训练命名实体识别模型，并对新的医学文本进行自动标注。适用人群：本资源适用于对医学自然语言处理（NLP）感兴趣的研究人员、数据科学家、医学专家以及开发者。使用场景及目标：医学文献挖掘、临床决策支持、药物研发与监管；其他说明：数据集说明：数据集经过专业医学人员的标注和审核，确保标注的准确性和一致性。同时，数据集的规模和多样性也经过精心设计，以满足不同应用场景的需求。实现代码说明：代码采用主流的深度学习框架编写，具有良好的可扩展性和可定制性。用户可以根据自己的需求对代码进行修改和优化，以适应不同的任务和数据集。使用指南：项目提供详细的使用指南和技术文档，帮助用户快速上手和使用本资源。

2024-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

信用卡欺诈检测数据集，和机器学习特征筛选：提升模型性能的关键步骤中的特征筛选代码案列

机器学习/数据挖掘/数据分析 + pyecharts/seaborn/matplotlib + 二手房分析 + 数据可视化展示

机器学习 推荐系统 相似度计算

机器学习 + lightgbm/贝叶斯优化/k折交叉验证 + 基于贝叶斯最优化过程 + 优化模型的代码

机器学习/工业制造 + ML/xgboost + 异烟酸在生成过程中的各个参数的优化来预测最终的收率

机器学习 + lightgbm/网格搜索交叉验证 + 贷款违约预测(二分类模型） + 预测一个用户是否会产生违约

深度学习/NLP + BERT-CRF + 实体识别 + 医学糖尿病数据命名实体识别

空空如也

机器学习推荐系统相似度计算