- 博客(34)
- 收藏
- 关注
原创 【数据可视化-45】基于Plotly的医疗保健数据集可视化分析
Name:患者姓名Age:患者年龄Gender:患者性别Blood Type:患者血型:患者医疗状况:入院日期Doctor:主治医生Hospital:医院名称:保险公司:账单金额:病房号:入院类型:出院日期Medication:用药情况:检查结果:住院时长(天)
2025-04-30 10:46:16
586
1
原创 【数据可视化-44】2024福布斯全球2000强企业排行榜
🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。
2025-04-29 09:31:00
1507
3
原创 【数据可视化-43】视频游戏销售数据集可视化分析
Rank:游戏总销量的排名。Name:游戏的名称。Platform:游戏发行的平台。Year:游戏发行的年份。Genre:游戏的类型。Publisher:游戏的发行商。NA_Sales:游戏在北美地区的销量。EU_Sales:游戏在欧洲地区的销量。JP_Sales:游戏在日本地区的销量。:游戏在其他地区的销量。:游戏的全球总销量。
2025-04-29 09:30:44
892
原创 【数据可视化-42】杂货库存数据集可视化分析
产品名称Category:产品类别:供应商名称:仓库位置Status:产品状态(Active/Discontinued/Backordered)Product_ID:产品ID:供应商ID:入库日期:最后订购日期:有效期:库存数量:再订购阈值:再订购数量Unit_Price:单价:销售量:库存周转率Percentage:百分比。
2025-04-28 09:35:18
1106
2
原创 【数据可视化-41】15年NVDA, AAPL, MSFT, GOOGL & AMZ股票数据集可视化分析
Date:交易日期Close_AAPL:苹果收盘价Close_AMZN:亚马逊收盘价:谷歌收盘价Close_MSFT:微软收盘价Close_NVDA:英伟达收盘价High_AAPL:苹果最高价High_AMZN:亚马逊最高价High_GOOGL:谷歌最高价High_MSFT:微软最高价High_NVDA:英伟达最高价Low_AAPL:苹果最低价Low_AMZN:亚马逊最低价Low_GOOGL:谷歌最低价Low_MSFT:微软最低价Low_NVDA:英伟达最低价。
2025-04-28 09:28:30
982
原创 【数据可视化-40】Amazon 销售数据集可视化分析
product_id:产品ID:产品名称category:产品类别:折扣价:原价:折扣百分比rating:产品评分:评分人数:产品描述user_id:用户IDuser_name:用户名review_id:评论ID:评论标题:评论内容img_link:产品图片链接:产品页面链接。
2025-04-28 09:22:19
746
原创 【数据可视化-39】2009-2019年亚马逊50大畅销书数据集可视化分析
Name:书名Author:作者:亚马逊用户评分Reviews:评论数Price:价格Year:上榜年份Genre:类型(小说或非小说)
2025-04-27 14:17:36
591
1
原创 【数据可视化-38】基于Plotly得泰坦尼克号数据集的多维度可视化分析
特征名称描述乘客编号Survived0 = 湍亡,1 = 生存Pclass客舱等级(1 = 一等舱,2 = 二等舱,3 = 三等舱)Name乘客姓名Sex性别Age年龄SibSp兄弟姐妹 / 配偶数量Parch父母 / 子女数量Ticket票号Fare票价Cabin客舱Embarked登船港口(C = 樱堡,Q = 女王镇,S = 南安普顿)
2025-04-27 14:17:07
1054
原创 【数据可视化-37】基于Plotly的机动车维修和拖车数据集可视化分析
注册类型:公司名称Trade Name:商号:企业地址:企业地址2City:城市State:州Zip:邮政编码:电话号码:ASE认证技师数量:拖车存储地址:拖车存储地址2:拖车存储城市:拖车存储州:拖车存储邮政编码:拖车存储电话Issue Date:发证日期Expiration:到期日期:注册编号Location:位置。
2025-04-27 14:16:53
578
原创 【数据可视化-36】基于pyecharts的学生成绩数据集可视化分析
gender:学生性别:学生种族/民族:父母教育水平lunch:午餐类型:是否参加测试准备课程math score:数学成绩:阅读成绩:写作成绩。
2025-04-26 11:54:23
1315
7
原创 【数据可视化-35】全球太空探索数据集(2000-2025)可视化分析
Country:参与太空任务的国家Year:任务年份(2000-2025):任务名称:载人或无人任务:发射地点:通信/导航/研究卫星:任务预算:任务成功率:使用的技术(如可重复使用火箭、AI导航、太阳能推进):环境影响(低/中/高):合作国家:任务时长(天)
2025-04-26 11:50:59
686
原创 【数据可视化-34】全球音乐流媒体趋势与听众洞察可视化分析
User_ID:用户唯一标识符Age:用户年龄Country:用户所在国家:使用的流媒体平台Top Genre:用户最常收听的音乐类型:每日平均收听时长:用户播放最多的艺术家:订阅类型(免费或付费):用户收听高峰时段(早晨/下午/晚上):自动生成播放列表的播放百分比:频繁重复播放歌曲的百分比年龄与收听时长:通常存在一定的非线性关系,不同年龄段的收听习惯差异明显。订阅类型:付费用户通常具有更长的收听时长,反映出付费用户的高粘性。平台差异。
2025-04-26 11:46:36
845
原创 【数据可视化-33】病毒式社交媒体潮流与用户参与度可视化分析
Post_ID:每条社交媒体帖子的唯一标识符Platform:社交媒体平台(TikTok, Instagram, Twitter, YouTube)Hashtag:与帖子相关的热门标签:内容类型(Reel, Video, Post, Shorts, Tweet 等)Region:帖子获得 traction 的国家Views:帖子获得的总浏览量LikesShares:帖子被分享的次数Comments:帖子获得的评论数:互动水平分类:低、中、高平台差异显著。
2025-04-25 16:32:40
807
原创 【数据可视化-32】全球住房市场分析(2015-2024 年)数据集可视化分析
Country:记录住房市场数据的国家Year:观测年份:房屋平均价格(美元)Rent Index:房产中位月租金(美元):中位房价与中位收入的比率:平均抵押贷款利率百分比:年通货膨胀率百分比:年GDP增长率百分比:年人口增长率百分比:城市化率百分比(居住在城市地区的人口比例)房价与租金正相关:房屋价格指数与租金指数通常呈正相关关系,房价较高的国家租金也较高。负担能力差异显著:不同国家的住房负担能力差异明显,房价越高,负担能力比率通常越低。经济因素影响复杂。
2025-04-25 09:10:40
1020
1
原创 【数据可视化-31】帕尔默群岛(南极洲)企鹅数据集可视化分析
species:企鹅物种(Chinstrap、Adélie 或 Gentoo)island:企鹅所在的岛屿:喙部长度(毫米):喙部深度(毫米):鳍长度(毫米):体重(克)sex:企鹅性别物种分布不均:Gentoo企鹅数量较多,Chinstrap企鹅数量相对较少,且不同岛屿上物种分布差异显著。身体特征差异:不同物种的企鹅在喙部长度、深度、鳍长度和体重等身体特征上存在显著差异,Gentoo企鹅在鳍长度和体重上均占据优势。性别比例均衡:除部分缺失值外,各物种企鹅的性别比例相对均衡。
2025-04-25 09:10:30
793
原创 【数据可视化-30】Netflix电影和电视节目数据集可视化分析
show_id:每部电影或电视节目的唯一标识符type:内容类型(电影或电视节目)title:电影或电视节目的标题director:电影导演cast:参与的演员country:内容制作国家date_added:在Netflix上的上架日期:内容的实际发布年份rating:内容的电视分级duration:时长(分钟)或季数内容类型分布不均:电视节目数量多于电影,且增长趋势更为明显。国家制作差异显著:美国是内容制作的主力军,其他国家制作内容较少,但各有特色。分级与内容类型关联紧密。
2025-04-24 21:53:25
1008
原创 【数据可视化-29】食物营养成分数据可视化分析
food:食物名称(唯一标识符):碳水化合物含量Sugars:糖分含量:膳食纤维含量Fat:脂肪含量Protein:蛋白质含量Calcium:钙含量Iron:铁含量Sodium:钠含量Vitamin C:维生素C含量:叶酸含量:卡路里含量(千卡)卡路里分布不均:少数高热量食物贡献了大部分热量,需注意平衡摄入。营养素分布差异显著:不同营养素在各类食物中的分布极不均匀,例如蛋白质在肉类和豆类中含量高,而蔬果中相对较低。营养素相关性复杂。
2025-04-24 20:47:51
1195
原创 【数据可视化-28】2017-2025 年每月产品零售价数据可视化分析
Year:参考年份Month:参考月份GEO:地理区域(编码为Province 1、Province 2等)Products:零售产品的名称COORDINATE:产品内部坐标标识符VALUE:每单位产品的原始价格(税前)UOM:计量单位(例如,美元)Taxable:产品是否应税,'Yes’为是,'No’为否:基于省份或加拿大平均的总税率(%):应税产品含税价格,不应税产品则与VALUE相同:产品的高级别分类Essential:产品属于基本需求还是非基本需求地区价格差异显著。
2025-04-24 17:11:58
1204
原创 【数据可视化-27】全球网络安全威胁数据可视化分析(2015-2024)
国家:发生攻击的国家年份:事件发生年份(2015-2024)威胁类型:网络安全威胁类型(如恶意软件、DDoS等)攻击类型攻击方法:(如网络钓鱼、SQL注入等)目标行业:目标行业(如金融、医疗保健等)数据泄露量(GB):数据量受损财务影响($M):估计经济损失(百万美元)安全漏洞类型:例如,零日漏洞、SQL 注入漏洞响应时间(小时):缓解攻击所花费的时间缓解策略:采取的对策攻击事件逐年增长:尤其在近几年,网络安全威胁呈现快速上升趋势,企业需加强防护能力。行业差异显著。
2025-04-24 16:18:10
1073
原创 【数据可视化-26】基于人口统计与社会经济数据的多维度可视化分析
ID:唯一标识符性别:0(女性)和1(男性)婚姻状况:单身或非单身年龄:个人年龄教育程度:最高学历收入:年收入职业:工作分类定居点规模:居住区域类型。
2025-04-24 09:01:42
936
1
原创 【数据可视化-25】时尚零售销售数据集的机器学习可视化分析
整数类型,每个客户的唯一标识符。:字符串类型,购买的时尚商品的名称。:浮点数类型,商品的购买价格(以美元为单位),存在650个缺失值。:字符串类型,购买日期(格式:DD-MM-YYYY)。:浮点数类型,买家评论评分(1到5分)。:字符串类型,使用的付款方式(如信用卡、现金等)。
2025-04-24 08:59:35
1123
原创 【数据可视化-24】巧克力销售数据的多维度可视化分析
🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。
2025-04-23 15:31:36
1467
原创 【数据可视化-23】学生习惯与学习成绩之间的关系可视化
通过上述可视化分析,我们可以更深入地了解学生的生活和学习习惯与学习成绩之间的关系。这些发现可以帮助教育工作者和家长更好地指导学生,提高他们的学习效果。该数据集和代码为理解学生习惯与学习成绩之间的关系提供了一个良好的起点。
2025-04-23 09:59:21
914
原创 【数据可视化-22】脱发因素探索的可视化分析
家族遗传:有秃头家族史的人群脱发风险较高。营养状况:缺乏锌、维生素D等营养素的人群更容易脱发。年龄和压力:年龄增长和中等压力水平可能增加脱发风险。需要注意的是,部分因素如不良护发习惯与脱发的关系并不显著,这可能需要进一步的分析和研究来验证。希望本篇博客能为读者提供有价值的参考!
2025-04-22 17:08:09
954
1
原创 【数据可视化-21】水质安全数据可视化:探索化学物质与水质安全的关联
本数据集包含7999条模拟水质记录,涵盖多种化学物质的浓度测量值,以及一个指示水样是否安全的分类变量。化学物质包括铝、氨、砷、钡、镉等,每种物质都有对应的安全阈值。
2025-04-22 17:05:59
785
原创 【机器学习案列-21】基于 LightGBM 的智能手机用户行为分类
User ID:用户唯一标识符:智能手机型号:操作系统类型:每日应用使用时间: 屏幕开启时间: 电池消耗量:安装的应用程序数量:每日数据耗用量Age:用户年龄Gender:用户性别:用户行为类别标签(1-5个等级)
2025-04-22 15:13:57
1011
原创 【数据可视化-21】水质安全数据可视化:探索化学物质与水质安全的关联
本数据集包含7999条模拟水质记录,涵盖多种化学物质的浓度测量值,以及一个指示水样是否安全的分类变量。化学物质包括铝、氨、砷、钡、镉等,每种物质都有对应的安全阈值。
2025-04-22 09:05:36
400
2
原创 【数据可视化-20】员工离职数据可视化:洞察离职趋势与关键因素
特征名称说明类型员工对公司的满意度float64绩员工上次KPI评分float64同时处理的项目数int64平均每个月的工作时间int64在公司的时间int64是否出现过工作事故int64left是否离开int64最近5年是否升职int64sales员工部门objectsalary薪资等级object。
2025-04-21 14:29:46
557
原创 【数据可视化-19】智能手机用户行为可视化分析
通过以上可视化分析,我们可以清晰地看到不同用户行为类别的特征分布。这些分析结果不仅有助于理解用户的使用习惯,还可以为手机制造商优化产品设计、运营商制定更智能的流量套餐方案提供数据支持,并为后续用户行为分类提供依据。
2025-04-20 12:05:14
968
1
原创 【机器学习案例-20】飞机航班延误的分类预测:基于 CatBoost 的完整实战
539383 个实例和 8 个不同的特征。目的是在给定预定起飞信息的情况下预测给定航班是否会延误。Airline:航空公司Flight:航班号:起飞机场AirportTo:到达机场DayOfWeek:星期几Time:起飞时间Length:飞行时长Delay:是否延误(目标变量)数据集中无缺失值和重复值,因此无需进行额外的预处理。通过本文的实战指南,我们成功构建了一个基于 CatBoost 的航班延误分类预测模型,并通过五折交叉验证提高了模型的稳定性和泛化能力。
2025-04-17 09:49:19
834
1
原创 【机器学习案例-17】基于XGBoost的垃圾短信分类:从零开始的实战指南
特征名称说明类型Label是否为垃圾短信二分类Text短信内容文本型数据集中存在少量缺失值和重复值,我们将进行相应的预处理。通过本文的实战指南,我们成功构建了一个基于XGBoost的垃圾短信分类模型。尽管模型在垃圾短信识别上还有提升空间,但通过超参数优化和交叉验证等方法,我们可以进一步提高模型的性能。希望本文能为大家提供一个清晰的实战思路,帮助大家在实际项目中应用机器学习技术。
2025-04-15 16:28:26
1042
1
原创 【机器学习案例-16】员工离职预测:从数据探索到模型构建完整流程解析
特征名称说明类型员工对公司的满意度float64绩员工上次KPI评分float64同时处理的项目数int64平均每个月的工作时间int64在公司的时间int64是否出现过工作事故int64left是否离开int64最近5年是否升职int64sales员工部门objectsalary薪资等级object。
2025-04-14 10:49:29
1139
1
原创 【机器学习案列-15】基于LightGBM算法的互联网防火墙异常行为检测:数据不平衡的解决方案
🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。
2025-04-08 15:35:45
1515
11
原创 合合信息TextIn大模型加速器2.0:图表解析能力的横向测评
● 简介:TextIn是合合信息旗下的一站式OCR服务平台,提供多种文档处理和图像识别服务,包括通用识别、票据识别、企业证照识别等。近期,TextIn上线了图表解析功能,能够智能解析多种图表类型,并以Excel格式输出。● 图表解析能力:支持饼图、折线图、柱状图、雷达图、散点图等多种图表类型。能够准确提取图表中的关键数据点、坐标轴信息、图例说明等,并将其还原为结构化数据。通过本次横向测评,可以看出合合信息TextIn大模型加速器 2.0在图表解析方面具有明显优势。
2025-04-01 11:15:57
1733
14
信用卡欺诈检测数据集,和机器学习特征筛选:提升模型性能的关键步骤中的特征筛选代码案列
2024-04-22
机器学习/数据挖掘/数据分析 + pyecharts/seaborn/matplotlib + 二手房分析 + 数据可视化展示
2024-03-23
机器学习 + lightgbm/贝叶斯优化/k折交叉验证 + 基于贝叶斯最优化过程 + 优化模型的代码
2024-03-08
机器学习/工业制造 + ML/xgboost + 异烟酸在生成过程中的各个参数的优化来预测最终的收率
2024-03-07
机器学习 + lightgbm/网格搜索交叉验证 + 贷款违约预测(二分类模型) + 预测一个用户是否会产生违约
2024-03-07
深度学习/NLP + BERT-CRF + 实体识别 + 医学糖尿病数据命名实体识别
2024-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人