大数据分析案例合集
文章平均质量分 97
本专栏主打大数据分析实战案例,用实战来讲解分类、回归、聚类等传统机器学习算法在金融、电商、医疗、房地产等多行业领域中的实际应用,利用大数据分析工具为产业赋能,创造很多的价值。本专栏正持续更新中,喜欢的小伙伴赶紧点个订阅吧。订阅专栏的小伙伴可以私聊我帮你解答案例中的遇到的困难和疑问。
艾派森
CSDN内容合伙人、新星导师、大数据分析领域优质创作者、阿里云社区专家博主,热爱python(昵称的由来),专注于数据分析、数据挖掘,持续分享学习笔记,感谢关注与支持。专栏【大数据分析案例合集】,感兴趣的小伙伴速速订阅!接Python爬虫、数据分析、数据挖掘、机器学习等相关课程设计作业/毕设,有需求请私信我!需要领取博文代码、数据集、学习资料、进粉丝交流群、的小伙伴点击了解:https://bbs.csdn.net/topics/614636587
展开
-
大数据分析案例-基于xgboost算法构建互联网防火墙异常行为识别模型
随着互联网的快速发展,网络安全问题日益凸显。互联网防火墙作为网络安全的第一道防线,负责监控和过滤进出网络的数据包,以阻止恶意攻击和非法访问。然而,随着网络攻击手段的不断更新和复杂化,传统的防火墙技术已难以满足日益增长的安全需求。因此,开发一种高效、智能的异常行为识别模型对于提升防火墙的防护能力具有重要意义。 近年来,机器学习算法在各个领域取得了显著的成功,尤其在处理大规模、高维度数据时展现出了强大的优势。XGBoost作为一种基于梯度提升决策树(Gradient Boosting Decisi原创 2024-05-21 17:00:50 · 9323 阅读 · 81 评论 -
大数据分析案例-基于随机森林算法构建银行贷款审批预测模型
本项目旨在利用借款人的历史信用记录、财务状况、个人背景等多维度信息,通过机器学习和数据分析技术,构建一个自动化的贷款审批流程。该模型能够快速、准确地评估申请人的信用风险,帮助银行做出更加明智的贷款决策,减少坏账风险,提高贷款业务的盈利能力。此外,该模型还有助于银行实现客户细分和个性化服务。通过对不同申请人群体进行特征分析和风险预测,银行可以更加精准地满足不同客户群体的需求,优化贷款产品设计和定价策略,提升客户满意度和忠诚度。原创 2024-05-10 08:34:51 · 8050 阅读 · 94 评论 -
大数据分析案例-基于Catboost+LGBM算法构建银行客户流失预测模型
本项目旨在通过分析某银行客户数据集,通过可视化分析找出影响客户流失的因素,最后实验机器学习中的Catboost、XGBoost、LGBM等集成算法构建银行客户流失预测模型,提高银行客户管理水平。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。原创 2024-04-26 18:48:56 · 9262 阅读 · 98 评论 -
大数据分析案例-基于决策树算法构建大学毕业生薪资预测模型
本实验旨在对2009年-2020年各大学各学院的毕业生平均薪资数据进行分析挖掘,这一研究有望在提高大学毕业生职业发展水平、促进高校与用人单位合作、优化人才流动与分配等方面发挥积极作用。通过基于决策树算法的大学毕业生薪资预测模型的构建和研究,我们深入探讨了影响毕业生薪资水平的多种因素之间的复杂关系。该模型不仅在预测准确性上表现出色,而且具有良好的可解释性,有助于为大学生提供更科学的职业规划建议,同时为用人单位提供更精准的招聘决策支持。原创 2024-03-27 11:05:07 · 12088 阅读 · 88 评论 -
大数据分析案例-基于随机森林算法构建肥胖预测模型并探究肥胖的成因
本文使用UCI中一项关于人们饮食习惯和身体状况调查的数据集,分别通过决策树以及随机森林算法对数据进行处理,拟在寻找肥胖的成因。算法通过对14种影响因子进行多标签分类获取各影响因子与肥胖程度之间的权值,最终获取肥胖评估模型。人们可以通过评估模型就自己目前的生活习惯和身体状况来对未来的肥胖程度进行评估,并根据评估结果寻求解决肥胖问题的合理方式。肥胖是一种全球性的疾病,无论人们的社会或文化水平如何,它始终都是热点话题,而且全球患者的数量逐年增长。原创 2024-03-19 09:59:00 · 12337 阅读 · 95 评论 -
大数据分析案例-基于SVM支持向量机算法构建手机价格分类预测模型
本研究将利用SVM支持向量机算法构建手机价格分类预测模型,旨在为消费者提供便捷的购买决策支持,同时为企业市场分析和定价策略提供有价值的参考信息。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。原创 2024-03-01 17:03:24 · 13352 阅读 · 106 评论 -
大数据分析案例-基于随机森林算法构建电影票房预测模型
本研究旨在利用随机森林算法构建一种高效的电影票房预测模型,通过综合考虑各种影响因素,提高预测准确性,为电影产业相关方提供科学的决策依据。通过该研究,可以更好地理解影响电影票房的关键因素,为电影从业者提供更全面的市场分析和预测服务。本实验通过对电影数据进行数据可视化、特征工程、建模分析,使用随机森林算法构建预测模型。总的来说,基于随机森林算法构建的电影票房预测模型为电影产业提供了一种强大的工具。然而,对于实际应用,还需要综合考虑业务背景、市场趋势等因素,将模型预测结果与实际情况相结合,形成更全面的决策依据。原创 2024-01-31 09:44:37 · 16580 阅读 · 54 评论 -
大数据分析案例-基于LinearRegression回归算法构建房屋价格预测模型
本实验旨在通过使用线性回归算法,基于历史房屋销售数据,构建一个房屋价格预测模型。通过分析房屋价格与各种特征之间的线性关系,我们可以更好地理解这些影响因素对房屋价格的影响程度,并为未来的房地产市场提供更准确的价格预测。通过这个实验,我们可以深入了解线性回归在房地产领域的应用,为相关领域的从业人员和决策者提供有益的参考。此外,我们还将评估模型的性能,并讨论可能的改进和进一步研究方向。这将有助于推动机器学习在房地产领域的应用和发展。原创 2024-01-07 16:15:48 · 14050 阅读 · 100 评论 -
大数据分析案例-基于随机森林算法构建二手房价格预测模型
通过应用随机森林算法,我们希望建立一个能够有效预测二手房价格的模型。这个模型可以基于各种因素,如区域位置、房屋属性、市场供需等,来预测未来某一时间点的房价。通过提高预测准确性,我们可以更好地把握房地产市场动态,为决策提供更有价值的参考。揭示影响二手房价格的因素及其影响方式:通过分析随机森林算法生成的模型,我们可以进一步了解哪些因素对二手房价格有重要影响,以及这些因素如何影响房价。这有助于我们深入理解房地产市场的运行规律,为制定更为有效的市场策略提供依据。原创 2023-09-10 11:57:08 · 11974 阅读 · 108 评论 -
大数据分析案例-基于LightGBM算法构建糖尿病确诊预测模型
本研究旨在基于LightGBM算法构建糖尿病确诊预测模型,通过分析临床数据中的生物特征、生活习惯、家族病史等因素,实现对患病风险的预测。通过该模型,可以为医生提供更多的客观数据支持,帮助其做出更准确的诊断和治疗决策,同时也可以为患者提供个性化的健康管理建议,从而有效降低糖尿病的发病率和并发症风险,改善患者的生活质量。本研究旨在基于LightGBM算法构建糖尿病确诊预测模型,通过分析临床数据中的生物特征、生活习惯、家族病史等因素,实现对糖尿病患病风险的预测。原创 2023-08-23 11:43:48 · 8604 阅读 · 49 评论 -
大数据分析案例-基于KMeans和DBSCAN算法对汽车行业客户进行聚类分群
本实验旨在通过对汽车行业客户数据进行分析,找出不同客户类型的属性和行为特征,最后使用KMeans聚类算法进行聚类分群,根据客户的特点量身定制产品和服务,提高客户满意度和忠诚度,增加销售额,并在激烈的市场竞争中取得优势。针对以上四个细分类别的汽车行业客户,可以制定相应的精准营销策略,以满足不同客户群体的需求和偏好,提高市场营销效果。1. 细分D:年龄在35岁以下的未婚人士,消费得分低,主要在医疗保健行业工作。- 营销策略:针对这一群体的客户,可以推出经济实惠的汽车型号,注重车辆的安全性和燃油经济性。原创 2023-08-14 15:11:52 · 9069 阅读 · 104 评论 -
大数据分析案例-基于随机森林算法构建多发性硬化症预测模型
本项目旨在通过分析多发性硬化症数据集,找出影响发病确诊的因素,最后使用传统机器学习算法构建发病预测模型,通过该模型,我们希望能够识别患有MS风险较高的人群,为早期干预、治疗和管理提供有效的辅助决策工具。在本实验中,我们成功地利用随机森林算法构建了一种多发性硬化症(MS)预测模型,并通过大规模的临床数据和生物标志物信息进行了验证和评估。原创 2023-08-04 09:05:51 · 9385 阅读 · 81 评论 -
大数据分析案例-基于LightGBM算法构建乳腺癌分类预测模型
本项目旨在利用LightGBM算法构建乳腺癌分类预测模型,结合医学影像数据和患者临床数据,对乳腺癌患者进行准确的分类和预测。提高乳腺癌早期检测的准确性:利用机器学习算法对医学影像数据进行分析,帮助医生及早发现乳腺癌病变,提高早期诊断的准确性。改善乳腺癌患者治疗策略:通过对患者临床数据的综合分析,预测乳腺癌患者的病情和预后,为医生制定个性化治疗方案提供依据。辅助医生决策:将构建的预测模型作为辅助工具,为医生在乳腺癌诊断和治疗过程中提供科学客观的参考意见。原创 2023-07-23 20:52:10 · 8501 阅读 · 81 评论 -
大数据分析案例-基于随机森林算法构建心力衰竭预测模型
本实验旨在基于随机森林算法构建心力衰竭的预测模型,通过分析患者的临床特征和医学数据,预测患者是否有心力衰竭的风险。具体步骤如下:数据收集:收集包括患者的临床特征、生理指标和病史等数据。这些数据可以来自医院的电子病历系统、生物传感器或调查问卷等来源。数据预处理:对收集到的数据进行预处理,包括数据清洗、缺失值处理、异常值处理等。确保数据的质量和一致性,以便于后续的特征选择和模型构建。特征选择:根据领域知识和特征选择算法,选择对心力衰竭预测具有重要意义的特征。原创 2023-07-16 17:28:40 · 9611 阅读 · 84 评论 -
大数据分析案例-基于KMeans聚类算法对客户进行分群分析
本项目旨在分析客户消费数据,找出不同类型消费者特征,使用聚类算法实现客户分群,进而实现精准营销,提高顾客满意度,增加企业创收。本次实验通过对企业客户数据进行分析,找出了各类型的客户特征,最后使用聚类算法对客户进行分群,模型效果还不错,但也有待提高的地方,分群之后企业应该要针对不同类型的客户采用不同的营销策略。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。原创 2023-06-30 07:57:39 · 10859 阅读 · 64 评论 -
大数据分析案例-基于XGBoost算法构建贷款违约预测模型
本项目旨在分析以往用户贷款违约数据集,来分析违约用户的特征,找出影响违约的因素,最后使用机器学习算法构建贷款违约模型,帮助企业更好地管理贷款风险,提高贷款的准确性和效率。本次实验我们分析了贷款违约数据,找出了影响违约最大的因素,最后我们选择使用xgboost模型来构建贷款违约预测模型,模型的准确率为0.88,模型效果还不错,但也有待提高。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-07-10 09:23:32 · 9948 阅读 · 63 评论 -
大数据分析案例-基于决策树算法构建信用卡欺诈识别模型
本项目旨在分析信用卡欺诈数据,找出欺诈和非欺诈的特征、影响欺诈的因素,最后使用机器学习算法构建信用卡欺诈识别模型,帮助金融机构快速发现潜在的欺诈交易,并采取相应的措施进行防范和处理,从而减少经济损失并保护客户的权益。本次实验通过分析信用卡欺诈数据,我们找出了欺诈交易的特征以及影响欺诈的因素,最后我们使用决策树算法构建了欺诈识别模型,模型的准确率接近100%,模型效果很棒。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-07-03 22:44:28 · 9660 阅读 · 44 评论 -
大数据分析案例-基于LightGBM算法构建公司破产预测模型
本项目旨在通过对以往公司破产数据进行数据分析、数据挖掘来找出影响破产的因素,以及使用机器学习算法构建公司破产预测模型,实时监测企业破产风险,帮助企业减少潜在损失,维护企业健康稳定发展。本次实验通过分析公司破产数据,我们找出了影响破产的因素,最后我们使用LightGBM算法构建了破产预测模型,模型的准确率为96.9%,模型效果不错。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-06-29 07:36:21 · 8622 阅读 · 67 评论 -
大数据分析案例-基于LightGBM算法构建航空公司满意度预测模型
本项目旨在通过分析航空公司的满意度调查数据,找出影响客户满意度的因素,最后使用机器学习算法构造航空公司满意度预测模型,及时帮助航空公司解决客户的不满意,打造一个良好的口碑。本次实验我们分析了航空公司的满意度数据,找出了影响满意度的因素,最后我们选择LightGBM模型来构建航空公司满意度预测模型,模型准确率为96.4%,模型效果较好!心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-06-22 19:26:33 · 8673 阅读 · 41 评论 -
大数据分析案例-基于逻辑回归算法构建心脏病发作预测模型
本项目通过分析心脏病发作数据,找出影响发作的因素,同时使用机器学习算法构建心脏病发作预测模型,有效预测哪些患者即将发作,为临床决策提供支持。本次实验我们通过可视化的方法分析了各个变量之间的关系,最后使用逻辑回归算法构建了心脏病预测模型,模型准确率为85%,效果还有待提高,最后我们也找出了影响心脏病发作的最大因素,那就是年龄、胆固醇指标、最大心率。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-06-13 18:00:00 · 9753 阅读 · 72 评论 -
大数据分析案例-基于LightGBM算法构建银行客户流失预测模型
本项目旨在分析银行客户流失数据,找出客户流失的原因,挖掘影响流失率的因素,最后使用机器学习算法构建银行客户流失预测模型,帮助企业及时针对即将流失的用户进行挽回。众所周知,与保留现有客户相比,签入新客户的成本要高得多。银行了解是什么导致客户做出离开公司的决定是有利的。客户流失预防使公司能够制定忠诚度计划和保留活动以保留尽可能多的客户。本次实验中,我们首先使用可视化的方法探究了影响客户流失率的因素,接着通过构建模型,我们最终选择LightGBM算法来构建客户流失预测模型,模型的准确率接近100%,效果很好!原创 2023-06-07 08:00:00 · 7308 阅读 · 95 评论 -
大数据分析案例-基于决策树算法构建世界杯比赛预测模型
本项目旨在分析往届世界杯比赛数据,找出规律,最后使用决策树算法构建世界杯比赛预测模型,给出两个球队即可预测胜率,可以给爱看球的小伙伴提供一个参考。本次实验我们使用了2018年及其之前的世界杯比赛数据,通过建立决策树模型,模型准确率为82%,接着我们使用该模型预测了2022年世界杯的5场半决赛及决赛,模型准确率也是接近80%的,说明模型效果还是很不错的。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-05-30 08:00:00 · 9938 阅读 · 79 评论 -
大数据分析案例-基于Adaboost算法构建糖尿病预测模型
本项目旨在通过分析糖尿病病人的历史数据,找出影响患糖尿病的因素,最后使用机器学习算法构建糖尿病预测模型。本次实验我们找出了影响糖尿病的重要特征,即血糖水平、年龄、bim,最后我们使用Adaboost算法构建了糖尿病预测模型,模型的准确率为0.91,模型效果不错。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。原创 2023-05-26 09:18:59 · 9013 阅读 · 82 评论 -
大数据分析案例-基于GBDT梯度提升决策树算法构建数据科学岗位薪资预测模型
本项目旨在分析数据科学相关岗位的薪资情况,探究数据科学岗位的规律,最后建立回归模型来预测数据科学相关岗位的薪资,并找出影响薪资的重要因素。本次实验我们通过分析数据科学相关岗位的薪资情况,发现了很多规律,建立了GBDT提升决策树模型来预测薪资,也找出了影响薪资的最大因素,唯一不足的就是最后模型的拟合效果不太好,这可能与原始数据集质量有关,也可能是我们预处理的时候没到位导致的。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-05-17 10:42:15 · 5452 阅读 · 86 评论 -
大数据分析案例-基于XGBoost算法构建居民收入分类预测模型
本项目通过分析加州大学机器学习存储库中的收入分类数据集,找出影响收入的主要因素,最后使用机器学习算法构建收入分类预测模型。本项目是一个二分类问题。本次实验我们分析了美国加州地区的收入数据集,我们发现该地区主要以白人、男性、收入原创 2023-05-04 09:08:42 · 6198 阅读 · 76 评论 -
大数据分析案例-基于高斯朴素贝叶斯算法构建良恶性肿瘤识别器
本项目通过分析良性肿瘤(Benign cancer)和恶性肿瘤(Malignant cancer)的细胞特征差异性,最后使用机器学习中的高斯朴素贝叶斯、支持向量机、逻辑回归、随机森林等分类算法模型构建癌细胞分类器,以此判断是否为良性或恶性。本次实验我们通过分析癌细胞的特征差异最后使用高斯朴素贝叶斯算法模型构建了癌细胞识别器,以此来识别是否为良/恶性,识别器的准确率为97%,效果不错。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-05-12 09:28:45 · 5361 阅读 · 62 评论 -
大数据分析案例-基于朴素贝叶斯算法构建微博谣言检测模型
本项目通过使用机器学习等算法对微博中谣言和非谣言数据进行分析建模,构造谣言检测模型,针对恶意的谣言进行精准识别,有效解决谣言引发诸多的不安定因素,并对经济和社会产生巨大的影响。本次实验通过对谣言数据进行分析建模,我们得出了以下结论:3.四个模型中,朴素贝叶斯算法模型效果最好,准确率为0.87。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。原创 2023-04-28 08:00:00 · 6440 阅读 · 47 评论 -
大数据分析案例-基于XGBoost算法构造房屋租赁价格评估模型
本项目通过使用机器学习算法来构建房屋租赁价格评估模型,避免了以往只能靠专业人员过往经验来评估的误差,用算法模型来评估结果更为科学可靠,同时通过本次实验,找出影响房屋价格的因素。本次实验通过对江西省南昌市的租房价格分析并建立价格评估模型,得出以下结论:1.有无电梯和装修情况对于房价影响较大。2.房价最高的地区为红谷滩,最低的地区为南昌县。3.lightgbm、xgboost、随机森林三个算法中,xgboost模型效果最好。4.area面积、address地区、elevator电梯是影响房价的三大因素。原创 2023-04-19 07:00:00 · 5896 阅读 · 74 评论 -
大数据分析案例-基于决策树算法构建信用卡违约预测模型
本项目旨在使用机器学习等算法构建信用卡违约预测模型,主要应用在金融相关领域,根据用户以往的行为数据来预测是否会违约,有利于商业银行防范和化解信用卡风险,完善信用卡违约风险管理工作。本次实验通过探索性分析以及使用决策树构建信用卡违约模型,得出以下结论:1.可透支金额主要集中在0~200000之间。2.性别对于可透支金额的影响较小。3.受教育程度和婚姻状况对可透支金额的影响较大。4.决策树模型的准确率为0.88,模型效果还有待提高。原创 2023-04-12 09:11:17 · 6663 阅读 · 41 评论 -
大数据分析案例-基于XGBoost算法预测航空机票价格
本项目旨在使用现有的航班票价数据进行分析建模,帮助消费者就何时何地购买机票做出明智的决定。通过分析一段时间内的航班票价模式,用户可以确定订票的最佳时间,并可能节省资金。本次实验我们通过分析航班票价数据,发现了很多可以帮助我们省钱的结论,最后通过构建XGBoost模型来预测航班票价,模型的预测效果也较为不错。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。原创 2023-03-30 09:21:46 · 5199 阅读 · 73 评论 -
大数据分析案例-基于XGBoost算法构建二手车价格评估模型
本项目使用Python网络爬虫技术爬取了58同城二手车数据并对数据进行加工处理,尝试用精准、简洁、科学的变量,利用机器学习模型建立起较为准确的二手车估价模型。本次实验通过使用机器学习中的多元线性回归、GBDT、xgboost三大算法构建了二手车价格预测模型,最后选择了效果最好的xgboost算法模型,模型准确率为0.9499,模型均方误差为1.04。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-04-05 08:00:00 · 5759 阅读 · 47 评论 -
大数据分析案例-基于随机森林算法预测共享单车租赁数量
共享单车作为共享经济最早出现的一种形式,极大的改善了人们的生活。现在在城市中可以随处可见的找到共享单车服务点。共享单车一出现就十分火爆,被资本家迅速盯上,产业规模发展迅速。其背后的原因有很多,首先是共享单车使用起来非常的方便快捷,只需要手机上下载app即可使用,有效解决了“最后一公里”的难题;其次是共享单车的出现一定程度上减少了机动车的使用量,进而减少了尾气的排放,实现了低碳环保,减少对空气的污染,也让我们的生活更加环保,同时也得到了政府的大力支持。原创 2023-03-22 09:38:49 · 6477 阅读 · 106 评论 -
大数据分析案例-基于逻辑回归算法构建微博评论情感分类模型
庞大的微博信息量揽括了众多话题,也许这些信息看似琐碎,而且看似杂乱无序,可事实上蕴含着巨大的潜在价值。微博平台上的各种互动,往往与用户的心理有关,用户一旦在微博中发言,便有了立场和倾向,这就可以对其做情感分析。通过情感分析的结果:名人可做自身形象维护;企业可做微博营销、客户关系管理以及品牌宣传;商家可通过用户产品体验后的评价做产品改进,从而提高市场占有率;政府机构可掌握突发事件后的社会群体心理,进行舆论监控;除此之外,还可对特定的高压力人群做情感分析,从而给他们提供有针对性的心理疏导等。原创 2023-03-08 09:26:59 · 6586 阅读 · 73 评论 -
大数据分析案例-基于决策树算法预测ICU患者是否需要插管
本项目旨在构建决策树分类模型来辅助医生判断患者是否需要进行插管,同时分析哪些因素对于判断患者是否需要插管的影响最大。本次实验中遇到的数据集非常不平衡,采用了过采样和欠采样,然而两种方法最后得到的结果截然不同,事实证明还是过采样处理最后的模型效果较为不错。心得与体会:通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。原创 2023-03-15 09:00:18 · 6028 阅读 · 73 评论 -
大数据分析案例-基于决策树算法构建银行客户流失预测模型
银行客户流失是指银行的客户终止在该行的所有业务并销号。但在实际运营中,对于具体业务部门,银行客户流失可以定位为特定的业务终止行为。商业银行的客户流失较为严重,流失率可达20%。而获得新客的成本是维护老客户的5倍。因此,从海量客户交易数据中挖掘出对流失有影响的信息,建立高效的客户流失预警体系尤为重要。时代与技术的发展使得数据的获取与挖掘成为可能,本实验将通过python对用户做特征分析和顾客流失分析,帮助银行发现并改善顾客体验,以及确定挽留的目标顾客并帮助银行制定方案。原创 2023-02-07 09:58:37 · 10271 阅读 · 128 评论 -
大数据分析案例-基于随机森林算法构建新闻文本分类模型
本次实验通过研究8种常见的新闻类别,找出其特点,构建新闻分类模型。模型的应用有利于各大新闻行业在发布新闻的时候能快速的得出待发布新闻的分类,提高效率,也有利于读者能精确的读取该分类下的新闻文章。本次实验是基于随机森林分类算法模型构建的新闻分类模型,最终模型准确率为90%,模型效果还不错,但是也还有改进之处,比如在数据预处理的时候,对中文文本的处理可以再细致点,使得分词效果更好,最后模型的准确率也会更高。通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-02-01 09:00:00 · 6661 阅读 · 171 评论 -
大数据分析案例-基于多元线性回归算法构建用户信用评分模型
通过使用python大数据的方法来建立信用评分模型,能提高效率,降低了人为决策的成本。对于金融机构来说,可以根据这个分数决定授信与否,授信额度,利率等。而对于客户来说,通过了解自己的信用分数,可以更好的做出决策。本次实验最后构建的模型为线性回归模型,模型平均绝对误差为3.36,均方误差为18.29,R方为0.68,模型效果一般,还有待提高。通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原创 2023-01-30 08:00:00 · 6203 阅读 · 99 评论 -
大数据分析案例-基于随机森林算法构建人口普查分析模型
人口问题始终是我国面临的全局性、长期性、战略性问题,七人普全面查清了我国人口数量、结构、分布等方面情况,准确反映了当前人口变化的趋势性特征,获得了大量宝贵的信息资源,我们正在抓紧对普查数据进行整理、分析和开发,后续会采取更多方式公布和共享普查成果,配合相关部门加强人口发展的前瞻性、战略性研究,最大程度发挥普查的作用,为推动高质量发展、有针对性地制定人口相关战略和政策、促进人口长期均衡发展提供强有力的统计信息支持。原创 2023-01-27 09:16:59 · 6057 阅读 · 108 评论 -
大数据分析案例-基于决策树算法构建金融反欺诈分类模型
当今以互联网、移动终端等为代表的技术力量正深刻地影响着金融支付市场,信息化、网络化、无线终端等技术的应用,使金融机构特别是银行业的经营发生了天翻地覆的变化,传统的银行柜台和网点业务,正渐渐被电子化交易所替代,电子银行以其便利性和增值服务各方面的优势,已经成为银行业保持活力和竞争力的主要发展动力。围绕电子渠道信息泄露、资金被盗、诈骗等威胁与日俱增,欺诈信息、木马病毒、仿制克隆卡等欺诈手段层出不穷,让各家银行头疼不已。本次实验,使用Python大数据分析方法,构建金融反欺诈模型,解决欺诈问题。原创 2023-01-18 09:48:26 · 6543 阅读 · 92 评论 -
大数据分析案例-基于随机森林算法构建返乡人群预测模型
由于乡村发展措施的完善以及国家大力支持乡村振兴发展战略,越来越多的人们响应国家的政策,开始返乡发展,本次实验利用python大数据工具来分析人们返乡意愿,预测未来的返乡趋势,以便各地可以及时指定更好的发展策略。通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。原创 2023-01-16 08:00:00 · 5653 阅读 · 114 评论